Está en la página 1de 191

MA444 ESTADISTICA

Civil, electrónica y
mecatrónica

CURSO : ESTADÍSTICA

CÓDIGO : MA444

ÁREA : CIENCIAS

CICLO : 2020-02
MA44 Estadística 2

TABLA DE CONTENIDO

Unidad 1. Organización de datos.......................................................................................... 5

1.1 Estadística......................................................................................................................................... 5
Estadística descriptiva ............................................................................................................................................. 5
Estadística inferencial .............................................................................................................................................. 5

1.2 Conceptos básicos ............................................................................................................................. 6

1.3 Variables........................................................................................................................................... 9
Clasificación de variables ......................................................................................................................................... 9
Escalas de medición de las variables ..................................................................................................................... 11

1.4 Dato y observación.......................................................................................................................... 15

1.5 Parámetro y estadístico ................................................................................................................... 16

1.6 Organización de datos cualitativos ................................................................................................... 17


Gráfico de una variable cualitativa ........................................................................................................................ 19
Gráfico de Pareto ................................................................................................................................................... 22
Tabulaciones cruzadas ........................................................................................................................................... 26
Gráfico de barras agrupadas ................................................................................................................................. 27
Gráfico de barras apiladas ..................................................................................................................................... 28
Gráfico de barras apiladas al 100% ....................................................................................................................... 28

1.7 Organización de datos cuantitativos discretos .................................................................................. 33


Tabla de distribución de frecuencias ..................................................................................................................... 33
Gráfico de bastones o líneas ................................................................................................................................. 34

1.8 Organización de datos cuantitativos continuos ................................................................................. 37


Pasos para elaborar la tabla de distribución de frecuencias................................................................................. 37
Gráficos de una variable cuantitativa continua..................................................................................................... 39

1.9 Métodos numéricos para describir datos cuantitativos ..................................................................... 42


1.9.1 Definiciones .............................................................................................................................................. 42
1.9.2 Medidas de tendencia central .................................................................................................................. 43
Media aritmética (promedio) ................................................................................................................................ 43
Mediana ................................................................................................................................................................. 45
Moda...................................................................................................................................................................... 46
1.9.3 Medidas de posición o Cuantiles .............................................................................................................. 47
Cuartil (Q) .............................................................................................................................................................. 47
Decil (D) ................................................................................................................................................................. 47
Percentil (P) ........................................................................................................................................................... 47
1.9.4 Medidas de variación o dispersión........................................................................................................... 50
Varianza ................................................................................................................................................................. 50
Desviación estándar .............................................................................................................................................. 51
Coeficiente de variación ........................................................................................................................................ 52
1.9.5 Coeficiente de asimetría de Pearson (Forma de la distribución de un conjunto de datos) .................... 57

Unidad 2. Probabilidades ................................................................................................... 61

UPCPC
MA44 Estadística 3

2.1 Definiciones .................................................................................................................................... 61


Experimento aleatorio () ...................................................................................................................................... 61
Espacio muestral ( ó S) ....................................................................................................................................... 61
Evento .................................................................................................................................................................... 61

2.2 Operaciones con eventos................................................................................................................. 62


Intersección ........................................................................................................................................................... 62
Unión ..................................................................................................................................................................... 62
Eventos mutuamente excluyentes ........................................................................................................................ 62

2.3 Probabilidad ................................................................................................................................... 64


Definición clásica de la probabilidad de un evento ............................................................................................... 64
Eventos complementarios ..................................................................................................................................... 64
Regla aditiva de la probabilidad ............................................................................................................................ 65
Regla aditiva para eventos mutuamente excluyentes .......................................................................................... 65

2.4 Principios fundamentales de conteo ................................................................................................ 66


Principio de la multiplicación ................................................................................................................................ 67
Principio de la adición............................................................................................................................................ 67
Técnica de conteo: Combinación .......................................................................................................................... 67

2.5 Probabilidad condicional ................................................................................................................. 69

2.6 Regla multiplicativa de la probabilidad ............................................................................................. 71

2.7 Eventos independientes .................................................................................................................. 72

2.8 Probabilidad total y el teorema de Bayes ......................................................................................... 75


Probabilidad Total ................................................................................................................................................. 75
Teorema de Bayes ................................................................................................................................................. 75

2.9 Variable aleatoria ............................................................................................................................ 81


Clasificación de variables aleatorias ...................................................................................................................... 82
Variable aleatoria discreta..................................................................................................................................... 82
Varianza de una variable aleatoria ........................................................................................................................ 84

2.10 Distribuciones discretas especiales................................................................................................... 87


Distribución binomial ............................................................................................................................................ 87
Distribución Poisson .............................................................................................................................................. 88

2.11 Variables aleatorias continuas ......................................................................................................... 92


Función de densidad de una variable continua..................................................................................................... 92
Función de distribución acumulada ...................................................................................................................... 93
Esperado de una variable aleatoria continúa ........................................................................................................ 96
Varianza de una variable aleatoria continua ......................................................................................................... 96

2.12 Principales distribuciones de variables aleatorias continuas .................................................................. 99


Distribución exponencial ....................................................................................................................................... 99
Características: .................................................................................................................................................... 100
Distribución normal ............................................................................................................................................. 102
Distribución normal estándar .............................................................................................................................. 103

2.13 Otros modelos de probabilidad aplicados en la teoría de la confiabilidad e hidrología ........................... 110
Distribución Exponencial 𝒕~𝑬𝒙𝒑𝒐𝒏𝒆𝒏𝒄𝒊𝒂𝒍 (𝜷) ............................................................................................... 111

UPCPC
MA44 Estadística 4

Distribución Weibull 𝒕~𝑾𝒆𝒊𝒃𝒖𝒍𝒍 𝜶, 𝜷.............................................................................................................. 111


Distribución gamma 𝒕~𝑮𝒂𝒎𝒎𝒂(𝜶, 𝜷) ............................................................................................................. 112
Distribución de probabilidad de Gumbel ............................................................................................................ 112

Unidad 3. Muestreo ......................................................................................................... 114

3.1 Censo............................................................................................................................................. 115

3.2 Muestreo ....................................................................................................................................... 115


Tamaño de muestra para estimar la media de una población ........................................................................... 119
Tamaño de muestra para estimar una proporción poblacional ......................................................................... 123

3.5 Muestreo probabilístico ........................................................................................................................ 127


Ficha técnica ........................................................................................................................................................ 128
Muestreo aleatorio simple .................................................................................................................................. 130
Muestreo sistemático .......................................................................................................................................... 134

Unidad 4. Estadística inferencial ...................................................................................... 140

Prueba de hipótesis .................................................................................................................................... 140


Prueba de hipótesis para una media con varianza poblacional desconocida ..................................................... 141
Pruebas de hipótesis para una proporción poblacional ...................................................................................... 145
Pruebas de hipótesis para la razón de varianzas poblacionales ......................................................................... 148
Pruebas de hipótesis para la diferencia de medias poblacionales...................................................................... 149

Unidad 5. Técnicas estadísticas: Análisis de varianza, análisis de regresión y correlación .. 155

a. Diseño de experimentos ..................................................................................................................... 155


Conceptos generales ........................................................................................................................................... 155
Diseño completamente al azar (DCA).................................................................................................................. 156
Método de comparaciones múltiples: Prueba de Tukey-Kramer ....................................................................... 162

5.2 Regresión lineal simple ......................................................................................................................... 171


Diagrama de dispersión o gráfico del plot........................................................................................................... 172
Método de los mínimos cuadrados ..................................................................................................................... 172
Recta o ecuación de regresión ............................................................................................................................ 173
Análisis de varianza ............................................................................................................................................. 175
Coeficiente de determinación ............................................................................................................................. 177
Coeficiente de correlación ................................................................................................................................... 177

UPCPC
MA44 Estadística 5

Unidad 1. Organización de datos


1.1 Estadística
Es la ciencia de los datos, implica la colección, clasificación, síntesis, organización, análisis e
interpretación de los datos.

Estadística descriptiva
Es la rama de la Estadística que se dedica al análisis, descripción y representación de un
conjunto de datos. Obteniéndose conclusiones sobre las características de dicho conjunto.

Estadística inferencial
Es la rama de la Estadística que desarrolla los procesos de estimación, análisis y pruebas de
hipótesis de un conjunto de datos extraídos de una muestra, con el propósito de llegar a
tener conclusiones acerca de una población.

UPCPC
MA44 Estadística 6

1.2 Conceptos básicos

Población (N)
Es un conjunto de elementos, (personas, objetos, etc.), que tienen una o más características
observables que se pueden medir en ellos.

Elemento
(unidad
elemental)

Población Todos los trabajadores del área de marketing de la inmobiliaria Nexo

Muestra Algunos de los trabajadores del área de marketing de la inmobiliaria Nexo

Elemento Un trabajador del área de marketing de la inmobiliaria Nexo

Población Todos

Muestra Un subconjunto

Elemento Un

UPCPC
MA44 Estadística 7

Ejemplo
Para conocer la opinión que tienen los estudiantes de ingeniería sobre el servicio que ofrece el
Centro de Información, se puede considerar como población a todos los estudiantes de
ingeniería de la UPC matriculados en el semestre anterior.

Muestra (n) Una parte/ un subconjunto de la


Se denomina muestra a una parte de la población. de población. Tiene las mismas
características que la población.
Ejemplo
Para conocer la opinión que tienen los estudiantes de ingeniería, sobre el servicio que ofrece el
Centro de Información, se puede considerar como muestra a un subconjunto de estudiantes de
ingeniería de la UPC matriculados en el semestre 2018-2.

Elemento o unidad elemental


Es cada una de las entidades acerca de las cuales se reúnen los datos.

Ejemplo
Para conocer la opinión que tienen los estudiantes de ingeniería acerca del servicio que ofrece
el Centro de Información, se puede considerar como elemento a un estudiante de ingeniería de
la UPC matriculado en el presente semestre académico.

Ejercicios

1. Se realizó un estudio para determinar la cantidad promedio diario de residuos de


construcción y demolición en la ciudad de Lima durante los meses de enero, febrero y marzo.
Determine la población, muestra y elemento.

UPCPC
MA44 Estadística 8

2. El gobierno está preocupado por la ocurrencia de un sismo de alta intensidad en el


departamento de Lima y las consecuencias que éste podría generar en el Cercado de Lima.
Por esta razón, Defensa Civil ha decidido realizar un diagnóstico de la situación de las
viviendas en este distrito encuestando a 1200 viviendas seleccionadas al azar. Parte de la
encuesta se presenta a continuación:

Encuesta de vivienda
1. Tiempo de antigüedad de la vivienda
• Menos de 10 años
• Entre 10 y 20 años
• Más de 20 años

2. Material de construcción de la vivienda:


• Cemento
• Adobe
• Quincha
• Prefabricado

3. Número de habitaciones: ____________

4. Área de terreno: __________ m2

5. La vivienda se encuentra en:


• Buen estado de conservación
• Regular estado de conservación
• Mal estado de conservación

Complete la siguiente Ficha técnica:

Fecha: Del 02 al 15 de marzo del 2020

Población: __________________________________________________________________

Muestra: ___________________________________________________________________

Unidad elemental: ___________________________________________________________

Con 95% de confianza y 3% de margen de error.

UPCPC
MA44 Estadística 9

1.3 Variables (característica): X,Y,Z


Variable es una característica de interés de los elementos.

Clasificación de variables
Variable cualitativa
Es la característica cuyos valores se expresan en escala nominal u ordinal. Por ejemplo,
carreras universitarias, materiales de construcción y tipos de resistencias.
Variable cuantitativa
Es la característica cuyos valores se expresan en escala de intervalo o de razón. Se dividen
en discretas y continuas

Variable cuantitativa discreta


Es aquella variable cuyo resultado sólo puede tomar un número finito o infinito numerable
de valores. Estos valores surgen de un proceso de conteo.
Por ejemplo, número de artículos defectuosos producidos diariamente o número de
columnas de concreto necesarias en la construcción de un puente.
Variable cuantitativa continua
Es aquella variable cuyo resultado puede tomar infinitos valores entre dos valores
cualesquiera. Estos valores surgen de un proceso de medición.
Por ejemplo, temperatura de ignición de un gas, resistencia del concreto a la compresión o
tiempo de corte de un torno corriente.

(Todo lo que se puede contar)


1pan, 3 vacas, 5 casas...
(Todo lo que tenga unidades)
3 kg de pan, 5kg de carne…

UPCPC
MA44 Estadística 10

Ejemplo

¿Cuál es tu programa de TV preferido?


X= programa de TV preferido
Tipo de variable: variable cualitativa

¿Cuál es tu carrera profesional?


Y= carrera profesional
Tipo de variable: variable cualitativa

a. Ing. Civil
b. Ing. Electrónica categorías de la variable (Alternativas)
c. Ing. mecatrónica

¿Cuál es su grado de instrucción?


Y= grado de instrucción
Tipo de variable: variable cualitativa

a. Primaria
d. Secundaria categorías de la variable
b. Superior
c. Post grado

¿Cuál es su ingreso mensual?


X= Ingreso mensual (soles)
Tipo de variable: Cuantitativa continua

Z= número de hermanos
Tipo de variable: Cuantitativa discreta

X= Año de nacimiento
Tipo de variable: Cuantitativa discreta
Escala: intervalo (el calendario de todos no es lo mismo)
X= Temperatura (°C)
Tipo de variable: Cuantitativa continua

¿Cuál es la edad de tu hijo?

X= edad de tu hijo

Tipo de variable: Cuantitativa continua


UPCPC
MA44 Estadística 11

Escalas de medición de las variables


La escala de medición permite determinar la cantidad de información que contienen los datos
e indica el resumen de estos y el análisis estadístico más apropiado.
Las escalas de medida de una variable cualitativa son las siguientes:
Nominal (No me interesa el orden de la categoría de variable)
Una variable está medida en escala nominal cuando los datos son etiquetas o nombres que
se emplean para definir un atributo del elemento. Por ejemplo: el género de las personas,
el estado civil, el número del celular, etc.
Ordinal (Me interesa el orden de la categoría de variable)
Una variable está medida en escala ordinal cuando pueden ordenarse de acuerdo con algún
criterio. Se pueden ordenar en forma ascendente o descendente. También, pueden
registrarse por medio de un código numérico. Por ejemplo: el orden de mérito de los
alumnos en el curso de Estadística, el grado de instrucción de los clientes de un banco, nivel
socioeconómico de los alumnos de la universidad.

Las escalas de medida de una variable cuantitativa son las siguientes:


Intervalo
Una variable está medida en escala de intervalo, si los datos tienen propiedades de datos
ordinales y el intervalo entre observaciones, se expresa en términos de una unidad fija de
medida. Los datos de intervalo siempre son numéricos. En esta escala, el cero es relativo, es
decir, no indica la ausencia de la característica medida. Por ejemplo: las temperaturas en
grados Celsius o en grados Fahrenheit.
Razón
Una variable está medida en escala de razón si los datos tienen todas las propiedades de los
datos de intervalo y el cociente de los dos valores es significativo. En esta escala, el cero
indica la ausencia de característica de la medida. Por ejemplo: el sueldo de los empleados
de una empresa, el peso de los alumnos de la UPC.

Ejemplo

1. Complete lo solicitado:

¿Cuál es tu programa de TV preferido?


X= programa de TV preferido
Tipo de variable: variable cualitativa
Escala: ……………………………………………………………………………………………………………………………………

Y= Carrera profesional
Escala: …………………………………………………………………………………………………………………………………..

UPCPC
MA44 Estadística 12

X= Ingreso mensual (soles)= 0 soles= ausencia de ingresos ¿0 m = 0 cm?:


Escala: Razón Escala: razón
Y= Temperatura (°C) = 0°C= Si hay temperatura ¿0°c = 0 °F?:
Escala: Intervalo Escala: intervalo
Z= número de hermanos (0 hermanos) (ausencia de hermanos)
Escala: Razón

2. La Corporación Aceros Perú es una empresa que se dedica a la


industria del acero. Actualmente, la empresa está fabricando
hierro esponja, palanquillas de acero, barras helicoidales,
alambrón y barras de construcción y tiene una capacidad de
680,000 toneladas al año. Uno de los mercados a los que más
se orientan los productos es el mercado de la construcción de
Lima.

Al departamento de control de calidad se le ha encargado realizar


un estudio sobre las varillas devueltas a la fábrica. Al seleccionar una muestra aleatoria de 80
barras de aceros de la sección de devoluciones del almacén, se midieron algunas características
de acuerdo con la siguiente ficha técnica:

N° de barra: ___________

1.- Tipo de barra de acero:


• Corrugado ASTM
• Corrugado Grado60
• Corrugado NBR7480
• Corrugado 4.7 mm
2.- El destino de uso de la barra de acero
• Columnas
• Vigas
• Cimentación
• Concreto armado
3.- Resistencia a la tracción: ________________ Kg/cm2

4.- Número de protuberancias: ________________

5.- Categoría del límite a afluencia


• Alta
• Regular
• Baja

UPCPC
MA44 Estadística 13

6.- Tipo de defecto

• Escamas • Marcas mecánicas • Corrosión


• Pliegues • Fisuras
• Grietas • Porosidad

A partir de la información, complete lo solicitado:

Población

Muestra

Identifique las
características e
indique el tipo y la
escala de medida

Ejercicios

1. Corporación Domar S.A.C. es una empresa peruana ubicada


en la ciudad de Lima con más de ocho años de experiencia en
el sector Industrial. La empresa ejecuta proyectos de
instalación de sistemas mecánicos y electrónicos, además
brinda un servicio industrial de mantenimiento especializado
de maquinarias y laboratorios en todas las especialidades de
ingeniería. El gerente del área de servicios quiere convertir a la corporación en una de las
empresas con mayor representatividad, a nivel nacional, en el rubro industrial, por lo que
desea evaluar los servicios brindados durante el último trimestre. En consecuencia,
selecciona al azar a 22 registros de los servicios realizados durante el último trimestre.
Algunas de las variables del estudio se presentan a continuación:

• Precio neto por el servicio (en miles de soles)


• Rubro de la empresa cliente (Construcción, Industria Manufacturera, Salud, Educación)
• Número de ingenieros necesarios para realizar el servicio
• Tipo de servicio (Mantenimiento preventivo, mantenimiento correctivo, instalación de
laboratorios, instalación de máquinas industriales)
• Número de días de ejecución del servicio (Duración del servicio, en días)

UPCPC
MA44 Estadística 14

Se solicita identificar la población y clasificar las variables.

Población:

Variable Tipo de variable Escala de medición

Precio neto por el servicio

Rubro de la empresa cliente

Número de ingenieros necesarios para


realizar el servicio

Tipo de servicio

Número de días de ejecución del servicio

2. El gobierno está preocupado por la ocurrencia de un sismo de alta intensidad en el


departamento de Lima y por las consecuencias que esto podría generar, especialmente en
algunos distritos como el Cercado de Lima. Por esta razón Defensa Civil realizó un diagnóstico
de la situación de las viviendas en el mencionado distrito a través de una muestra de 1200
viviendas seleccionadas al azar. Se registraron las siguientes variables:

• Años de construcción.
• Tipo de vivienda (1 = Cemento, 2 = Adobe, 3 = Quincha, 4: Material prefabricado)
• Número de habitaciones por vivienda.
• Área del terreno en donde se construyó la vivienda.
a. De acuerdo con el enunciado anterior identifique la población y la muestra.
b. Identifique el tipo y escala de medición de las variables mencionadas.

3. ComputerSoft es una compañía dedicada a brindar servicios informáticos a empresas que


desean tener una presencia firme y contundente en la red. Esta compañía se dedica al
tendido de redes LAN, instalación de equipos, servidores y toda una gama de productos
tecnológicos que puedan resultar imprescindibles para una empresa. Como parte de un
estudio realizado por ComputerSoft se analizó la información correspondiente a una muestra
de 30 empresas en la ciudad de Lima a las que se les brindó los servicios informáticos.

Identifique el tipo y escala de medición de las variables consideradas en dicho estudio.

Variable Tipo de variable Escala de medida


Lenguajes de programación (Cobol,
Java, etc)
Cantidad de servidores por empresa

UPCPC
MA44 Estadística 15

Costo de las licencias de software (en


dólares)
Año de instalación del software

4. La empresa de investigación de mercados AlphaDatum S.A. realizó un estudio para evaluar


el efecto de la caída de la bolsa de valores de Lima (BVL) en las administradoras de fondos
de pensiones (AFP). En este estudio se tomó una muestra de 300 afiliados entre 25 y 35 años
en Lima seleccionados al azar. Se registraron las siguientes variables:

• AFP a la que pertenece el afiliado (1 = Futuro Sólido, 2 = Siempre Contigo, 3 = Forever)


• Monto del fondo del afiliado (en soles)
• Edad del afiliado (en años)
• Tipo de fondo según riesgo (1 = Bajo riesgo, 2 = Riesgo moderado, 3 = Alto riesgo)

a. De acuerdo con el enunciado anterior identifique la población y la muestra.


b. Identifique el tipo y escala de medición de las variables mencionadas.

5. Indique el tipo y la escala de medición de las características observadas en una muestra de


secciones de tuberías de agua.

Variable Tipo de variable Escala de medición

Diámetro de la tubería (pulgadas)

Material de la tubería

Año de instalación

Ubicación (subterránea, aérea)

Longitud de la tubería (pies)


Estabilidad del suelo circundante (inestable,
moderadamente estable o estable)

Corrosividad del suelo circundante (corrosivo


o no corrosivo)

1.4 Dato y observación


Dato: es la respuesta que se tiene, por variable, de cada unidad elemental. Los datos pueden
ser cuantitativos o numéricos y cualitativos o no numéricos.
Observación: es el conjunto de datos por unidad elemental.

UPCPC
MA44 Estadística 16

Ejemplo
Muestra
La siguiente base de datos contiene información de una muestra de 10 usuarios de internet de
un determinado distrito de la ciudad capital.

Principales problemas Nº de PC's Tiempo de navegación


Usuario Marca de PC
con internet con internet diaria (min)
Tipo de Cuantitativa Cuantitativa
Cualitativa Cualitativa
variable discreta continua
Escala Nominal Nominal Razón
Razón
1 HP S 1 194.00
2 Dell L 1 274.45
3 IBM S 3 104.89
4 HP V 3 125.53
5 Dell V 3 123.97
6 HP C 4 134.66
7 Otra marca B 2 256.33
8 HP O 2 195.32
9 HP B 2 121.90
10 Lenovo V 2 378.27

Principales problemas con internet


B = Baja velocidad en la señal
L = Lentitud para subir información
S = Saturación de la red
V = Lentitud para ver videos y escuchar música en línea
C = Calidad y durabilidad del modem
O = Otros

Unidad elemental: 1 usuario de internet de un determinado distrito de la ciudad capital.

• ¿Cuántos datos tenemos por unidad elemental? 4


• ¿Cuántas observaciones tengo? 10
• ¿Cuántas características estoy evaluando? 4
• ¿Cuántos datos tengo en total? 40
Un dato cuantitativo discreto: 2 PCs
Una observación: Elemento: 10; Marca de PC: Lenovo; Problemas con internet V; 2; 378.27

1.5 Parámetro y estadístico


Un parámetro resume una característica de la población. Para obtener su valor se hace
necesario contar con toda la información que brindan los elementos de una población.

UPCPC
MA44 Estadística 17

Un estadístico resume una característica de la muestra, para obtener su valor se utiliza la


información muestral. El valor obtenido de un estimador se conoce como estimación. Al
estimador se le llama estadígrafo o estadístico.
Algunos parámetros y estadísticos:

Nombre de la medida de
Parámetro Estadístico
resumen
N n

Promedio x i x i

= i =1
x= i =1

mú N n

Moda Mo mo
A a
Proporción p= pˆ =
N n
A= La parte

Ejemplo

N= 30 alumnos del curso de estadística de la sección XYZ


X= Edad (años)
Promedio = 19.7 años

¿El valor que se ha calculado corresponde a un parámetro o estadístico?


• Respuesta: Parámetro
Valor del parámetro: 19.7 años
• Notación: u
X = peso (Kg)
n = 5 alumnos del curso de estadística de la sección XYZ
67, 56, 49, 67, 70

UPCPC
MA44 Estadística 18

1.6 Organización de datos cualitativos


La organización se presenta a través de una tabla y de gráficos. Los elementos de la tabla de
frecuencias se describen a continuación:

Frecuencia absoluta (fi)


La frecuencia absoluta (fi) de una categoría, está dada por el número de repeticiones en las
observaciones que presenta esta categoría.
Frecuencia relativa (hi)
La frecuencia relativa (hi) de una categoría está dada por la proporción del número total de
observaciones que caen en esa categoría
Frecuencia relativa acumulada (Hi)
La frecuencia relativa acumulada de una categoría está dada por la proporción del número
total de observaciones que caen hasta esa categoría.
Elementos de toda tabla de frecuencia

Título: El título debe seguir la siguiente estructura “Distribución de (elementos) según


(variable en estudio)”
Fuente: Se refiere de donde se extrajeron los datos para posteriormente ser organizados

Ejemplo

La siguiente información muestra la distribución de una muestra de viviendas de un


determinado distrito de Lima según material con el cual fue construido.

Distribución de viviendas de un determinado distrito de Lima según material de 4 decimales


construcción por
Distribución <muestra> según <variable> redondeo
fi hi = fi/n pi = hi *100% simple.
Material de construcción
Cemento 48 0,160 16%
Adobe 100 0,333 33,3%
Quincha 108 0,360 36%
Material prefabricado 44 0.147 14,7 %
Total 300 1,000 100%
Fuente: Municipalidad distrital

• Unidad elemental: Una vivienda de un determinado distrito de Lima


• Variable: Materiales de construcción
• Tipo: Cualitativa
• Escala: Nominal

UPCPC
MA44 Estadística 19

Interprete según el enunciado el valor de las siguientes frecuencias:

Son 108 viviendas de un determinado distrito de Lima que has sido


f3 = 108
construidas con quincha.

El 36% de las viviendas de un determinado distrito de Lima que has sido


p3 = 36%
construidas con quincha.

Gráfico de una variable cualitativa


Para representar gráficamente la variable cualitativa se utiliza el gráfico de barras o el gráfico
de sectores circulares.
Si trabajamos con variables cualitativas nominales, las categorías pueden ser colocadas en
cualquier orden.
En el caso la variable cualitativa sea de escala ordinal las categorías deberán ser colocadas
en orden.
Para el gráfico de barras usar frecuencias absolutas o porcentuales.
Para el caso del gráfico circular sólo es posible usar las frecuencias porcentuales.
El título del gráfico es el mismo que se ha colocado a la tabla de frecuencias.
En el gráfico también se debe colocar la fuente y las etiquetas.

Ejemplo

Se tiene información para una muestra de instituciones peruanas sobre los dominios de
segundo nivel registrados bajo la categoría .pe.

Título: Distribución de instituciones peruanas según los dominios de segundo nivel registrados
bajo la categoría .pe.

Dominio fi Hi = fi/n pi = hi *100%


com.pe 285 0.570 57.0%
org.pe 106 0.212 21.2%
edu.pe 64 0.128 12.8%
gob.pe 26 0.052 5.2%
net.pe 3 0.006 0.6%
Otros 16 0.032 3.2%
Total 500

Interprete el valor de las siguientes frecuencias:

UPCPC
MA44 Estadística 20

Hay 106 instituciones peruanas registradas con el dominio de segundo


f2 = ……....
nivel org.pe.

El 21.2% de las instituciones peruanas registradas con el dominio de


p2 = ……....
segundo nivel org.pe.

Ejemplo

1. La empresa “PC Review – Perú” está interesada en conocer cuál es el programa de Microsoft
Office que más utilizan los empleados de las empresas de la ciudad de Lima. Por tal motivo
se seleccionó una muestra de 500 empleados y se les pidió que indicaran el programa que
más usaba diariamente. La información se presenta a continuación:

Distribución de empleados según tipo de programa de Microsoft que usan diariamente

Tipo de programa de
Número de empleados (fi) hi = fi/n pi% = hi *100%
Microsoft
Access 50
MS Excel 101
MS Power Point 90
MS Word 113
Outlook 101
Otros 45
Total 500
Fuente: PC-Review-Perú Fuente: Municipalidad distrital

Complete los elementos de los siguientes gráficos:

Distribución de empleados según tipo de programa de


Microsoft que usan diariamente Distribución de empleados según tipo de programa de
Microsoft que usan diariamente

120 Categoría
Access
Ms Excel
Ms Power Point
100
Numero de empleados

Ms Word
Otros
Outlook
80

60

40

20

0
Access Ms Excel Ms Power Point Ms Word Otros Outlook

Programas de Microsoft Office

UPCPC
MA44 Estadística 21

Fuente: “PC Review – Perú” Fuente: “PC Review – Perú”

2. La siguiente información muestra la distribución de una muestra de viviendas de un


determinado distrito de Lima según material con el cual fue construido.

Distribución de viviendas según tipo de material de construcción


Material de construcción fi hi pi
Cemento 48 0,160 16%
Categorías de
la variable o
Adobe 100 0,333 33,3%
atributos Quincha 108 0,360 36%
Material prefabricado 44 0,147 14,7%
Total 300 1,000

Interprete el valor de las siguientes frecuencias:

f2 Hay 100 viviendas de un determinado distrito de lima, en las cuales se usó el


adobe como material de construcción.
El 33,3% de las viviendas de un determinado distrito de lima, en las cuales que
h2(%)
se utilizó al adobe como material de construcción.

El gráfico circular se presenta a continuación:

UPCPC
MA44 Estadística 22

Comente

Elabore el gráfico de barras para el ejercicio anterior y comente.

Fuente: Municipalidad distrital

Gráfico de Pareto
El gráfico de Pareto es un gráfico de barras ordenado por frecuencia, en orden descendente.
También se dice, ordenado por orden de prioridad.
Permite mostrar gráficamente el principio de Pareto: “el 80% de los problemas se pueden
solucionar, si se eliminan el 20% de las causas que los originan” (pocos vitales, muchos
triviales). Por ejemplo, en control de calidad, se puede mostrar que la mayoría de los
defectos surgen de un número pequeño de causas.
Este diagrama es un caso particular de gráfico de barras y es utilizado básicamente para:
• Conocer cuál es el factor o los factores más importantes en un problema.

UPCPC
MA44 Estadística 23

• Decidir el objetivo de mejora y los elementos que se deben mejorar.

Pasos para realizar el gráfico de Pareto:

• Recolectar datos y clasificarlos por categorías.


• Ordenar las categorías de mayor a menor, según la frecuencia fi, indicando el número de
veces que se ha producido.
• La categoría “Otros” debe ser colocada en la última posición, no importando cuán grande sea
esta categoría.
• Dibuje dos ejes verticales y uno horizontal. En el eje vertical derecho marque con una escala
de 0% a 100%; en el eje vertical izquierdo, marque una escala de 0 hasta el número total de
observaciones o de 0% a 100%; en el eje Horizontal, marque los espacios donde estarán
dibujadas las barras para cada una de las categorías, incluida la categoría “otros”.
• Calcular los porcentajes individuales y acumulados de cada categoría.
• Elabore el diagrama de barras y dibuje la línea de frecuencias acumuladas (curva de Pareto)
en función de los datos obtenidos anteriormente.
• Coloque título principal, título al eje X, título al eje Y primario y secundario, etiquetas y
fuente.

Ejercicios

1. La siguiente tabla muestra información sobre los defectos observados con mayor frecuencia
en los puentes vecinales construidos en estructura de madera de cierta localidad del interior
del país:
Distribución de puentes vecinales según defectos observados
Defectos observados fi
Pandeos y rajaduras 40
Pudrimiento de las piezas de madera 30
Efectos del desgaste mecánico 20
Otros 5
Deformaciones 15
Ataques de insectos y crustáceos 10
Acción de fuego 5
Fuente: Municipalidad distrital

Elabore el diagrama de Pareto para identificar qué defectos deben priorizarse en este tipo de
puentes.

2. REX S.A. es una empresa con más de 30 años en el mercado y está


dedicada a la fabricación de hornos para la elaboración de
ladrillos que requieren altas temperaturas de secado. Estos
aparatos pueden causar daños bastantes considerables a los
operarios cuando el horno no está funcionando correctamente.

UPCPC
MA44 Estadística 24

Durante el último mes, el Departamento de Control de Calidad seleccionó una muestra de


57 hornos para ser revisados.
Entre los principales problemas observados en la revisión se indicaron los siguientes:

Principal problema Número de hornos


Condensación precoz 5
Retracciones del mortero 12
Cocción de ladrillos 15
Otros 8
Caliches 9
Exfoliaciones 8

El Departamento de Control de Calidad tiene por norma priorizar los problemas que resuelvan
alrededor del 80% del total casos. Sin embargo, si estos problemas son más de tres, dicho
departamento ordenará realizar una revisión total del proceso de producción.

estar

Elemento: Un artículo fallado


de la empresa mundo

3. El jefe de control de calidad de la empresa “Mundo” está interesado en conocer cuáles son
las principales causas que están afectando la producción. Al seleccionar una muestra de 450
artículos fallados obtuvo los siguientes resultados:
ser
Características
Causas que afectan la producción Cantidad
Inestabilidad máquina 56
Cambios ambientales 191

UPCPC
MA44 Estadística 25

Rotura máquina 35
Cansancio operador 11
Desgaste del equipo 3
Desviación del material 5
Fluctuación energía 9
Error de medición 10
Partida fría 8
Rotura de operador 122
Total 450

Complete el diagrama de Pareto agrupando en la categoría “Otros” a las categorías cuyos


porcentajes sean menores al 10%. Identifique las principales causas que resuelvan el 80% de los
problemas de producción.

Distribución de ………………………….…………. según ……………………………………………………………….


Causas fi hi Fi Hi
Cambios ambientales 191 0.424 191 42.4%
Rotura de operador 122 0.271 313 69.6%
Inestabilidad máquina 56 0.124 369 82.0%
Rotura máquina 35
Cansancio operador 11
Otros
Total 450 1

UPCPC
MA44 Estadística 26

Distribución de los artículos fallados de la empresa Mundo según las causas que afectan
la producción
100.0%
450 89.8% 92.2% 100.0%

Porcentaje acumulado de artículos


400 82.0%

350 69.6% 80.0%


Número de artículos

300
60.0%
250
42.4%
200 191
40.0%
150 122
100 20.0%
56
50 35 35
11
0 0.0%
Cambios Rotura de Inestabilidad Rotura máquina Cansancio Otros
ambientales operador máquina operador
Solucionamos:
Principal causa
El 80 %

Fuente: ………………………………………………………………………..……… Evaluar:


costo-Tiempo

4. Metronics S. A. es una fábrica especializada en la producción


de piezas electrónicas para ensamblaje de computadoras. En
los últimos meses, el jefe de producción ha registrado
pérdidas en la producción, por ello, ha solicitado información
estadística. Una muestra aleatoria de 30 piezas defectuosas
fabricadas, a diario por el área de producción, arrojó la
siguiente información respecto al tipo de problema
observado en la pieza defectuosa.

Basado en su experiencia, el inspector de calidad determina que corrigendo a lo más el 77% de


los problemas se reducen las pérdidas en la producción. Si se llega a identificar que los
problemas a corregir son tres, entonces pasará por un nuevo proceso de evaluación de calidad
de los productos ¿La empresa será sometida nuevamente a un proceso de evaluación de
calidad?

Distribución de …………………………………………………………………………………………………………………..
Problema observado Número de piezas fabricadas
Recalentamiento 3
Corrosión 6
Rajadura 8
Deformación 9
No cumple estándar 4

UPCPC
MA44 Estadística 27

Tabulaciones cruzadas
También llamadas tablas de contingencia o tablas de doble entrada. Se usan para resumir de
manera simultánea los datos de dos variables.

Ejercicio
1. Un estudio realizado por A&C Consultores sobre los tipos de riesgos asociados a las
excavaciones de zanjas y tipo de terreno, arrojó los siguientes resultados en base a una
muestra de 500 obras de construcción:

Distribución de las obras de construcción según tipo de terreno y riesgo más importante
Tipo de riesgo más importante
Tipo de
Caída de
terreno Atrapamiento Derrumbe Inundaciones Otros Total
personal
Roca blanda 27 66 51 9 25 178
Roca dura 15 53 38 3 9 118
Tierra
9 31 17 1 10 68
arcillosa
Tierra fuerte 17 55 36 10 18 136
Total 68 205 142 23 62 500
Fuente: Consultores A&C

Complete los espacios en blanco.

• El número de obras de construcción cuyo tipo de terreno son de roca dura y presentan riesgo
de derrumbe es: …………………………………………………………………………………………………………….……
• Del total de obras que presentan riesgo de atrapamiento, el ……………………..…….% son de
tierra fuerte.
• ¿Cuál es el porcentaje de obras de construcción con riesgo de inundación y roca dura? …..….

2. Uno de los requisitos que toda represa debe tener es poder conservar las condiciones de
funcionalidad y de seguridad que permita su utilización a lo largo de su vida útil, sufriendo
las menores incidencias posibles y dando cumplimiento a la legislación de seguridad y
mantenimiento vigentes. La Confiep sospecha que existe un alto porcentaje de represas de
tipo terraplén en mal y muy mal estado de conservación. De comprobarse que este
porcentaje supera el 10%, la represa será declarada en emergencia. La información de la
tabla fue obtenida al término de la inspección de las represas.

Estado de conservación
Tipo de represa
Bueno Regular Malo Muy Malo Total
Cimiento 16 17 12 12 57
Excavación 5 8 5 11 29
Terraplén 7 9 13 5 34
Total 28 34 30 28 120
Fuente: Andino S.A.

UPCPC
MA44 Estadística 28

a. Identifique las variables en estudio e indique su tipo y escala de medida

b. Identifique la unidad elemental

c. Coloque título a la tabla

d. Interprete el valor de la celda sombreada con respecto al total de fila, columna y gran total.

Gráfico de barras agrupadas


Un gráfico de barras agrupadas muestra todas las series en una sola barra por cada categoría.
El alto de cada barra es proporcional a la frecuencia de cada categoría.

UPCPC
MA44 Estadística 29

Gráfico de barras apiladas

Un gráfico de barras apiladas muestra todas las series apiladas en una sola barra para cada
categoría. El alto de cada barra es proporcional a la frecuencia de cada categoría.

Gráfico de barras apiladas al 100%

Un gráfico de barras apiladas 100% muestra todas las series apiladas en una sola barra para
cada categoría. El alto de cada barra es el mismo para cada categoría.

UPCPC
MA44 Estadística 30

Ejercicio
A continuación, se muestra la información de una tabla de contingencia y un gráfico incompleto
para las variables lugar de destino y nacionalidad.

Distribución de pasajeros según su lugar de destino y nacionalidad


Nacionalidad
Lugar de destino Total
Peruana Extranjero
Arequipa 8 8 16
Cuzco 15 20 35
Miami 20 10 30
México D.F 22 10 32
Piura 2 7 9
Río de Janeiro 23 5 28
Total 90 60 150
Fuente: Wayra S.A

Complete los elementos faltantes del siguiente gráfico.

100%
90% 17.9%
33.3% 31.3%
80%
50.0%
70%
60% 77.8%
50% Extranjero
40%
Peruana
30%
20%
10%
0%
Arequipa Cuzco Miami México D.F Piura Río de
Janeiro

Interprete

UPCPC
MA44 Estadística 31

Elabore el gráfico porcentual para la siguiente tabla cruzada e interprete.

Distribución de pasajeros según su lugar de destino y nacionalidad

18%
16%
14%
12%
10%
Peruano
8%
Extranjero
6%
4%
2%
0%
Arequipa Cuzco Miami México D.F Piura Río de
Janeiro

Interprete

Complete todos los elementos del siguiente gráfico.

100%
90% 25.6%
80% Río de Janeiro
70% 2.2%
24.4% Piura
60%
50% México D.F
40% Miami
22.2%
30%
Cuzco
20% 16.7%
10% Arequipa
8.9% 13.3%
0%
Peruana Extranjero

UPCPC
MA44 Estadística 32

Interprete

Ejercicios propuestos

1. La empresa “PC Review Perú” realizó un estudio a una muestra a 500 directores de
empresas de la ciudad de Lima. Los resultados obtenidos a la pregunta ¿cuál de los
programas de Office usaba con mayor frecuencia? se resumen a continuación:

Programa de Microsoft de uso más Cantidad de directores de


frecuente empresas
Access 30
MS Excel 80
MS Power Point 75
MS Word 250
Outlook 55
Otros 10
Total 500

Construya el diagrama de barras y sector circular para la información anterior.

2. La siguiente tabla muestra la distribución de clientes de la empresa de telefonía según sus


principales quejas.

Distribución de clientes según principales quejas

Principales Quejas Frecuencia hi Fi Hi


Cambios sin consentimiento 246
Tarifas y servicios 106
Forzamiento al cambio 29
Marketing 74
Llamadas internacionales 14.5
Maltratos 12.5
Servicio de operadora 18

Construya el diagrama de Pareto para la variable en estudio. Considere un acumulado de


menos de 8% para la categoría Otros. ¿Cuáles son las quejas que deberán priorizarse?

UPCPC
MA44 Estadística 33

3. En la siguiente tabla se muestran los resultados obtenidos en un estudio realizado en la


ciudad de Ica por un grupo de profesionales de la UPC de la facultad de Ingeniería sobre las
fallas estructurales en las edificaciones debido al último sismo que tuvo como epicentro la
ciudad de Nazca.

Fallas estructurales Porcentaje


Columnas cortas 10%
Configuración del edificio 45%
Problemas geotécnicos 30%
Otros 10%
Piso blando 5%

Construya un diagrama de Pareto para identificar las fallas estructurales que tienen mayor
incidencia en las edificaciones en la ciudad de Ica debido al último sismo mencionado.

4. A una muestra de 95 hombres y 155 mujeres se formuló la siguiente pregunta: ¿Por qué
usa el servicio de taxi mediante una aplicación? Los resultados obtenidos se muestran en
los siguientes gráficos:
Gráfico 2 Gráfico 3
1.0 100%
0.9
0.32 0.36 80%
0.8
59% 65%
0.7 D
60% Masculino
0.6 A
0.15 Reunión Femenino
0.5 Estudio 40%
0.4 Trabajo
20% C E
0.3 33%
0.56
B
0.2 0%
0.1 Trabajo Estudio Reunión
0.0
Masculino Femenino

a. Indique la unidad elemental


b. Identifique las variables e indique sus escalas de medida
c. Indique el título del gráfico 2 y el título del gráfico 3
d. Complete los elementos faltantes de los gráficos 2 y 3.
e. Del total de encuestados que usan la aplicación de taxi por trabajo, ¿cuántos son mujeres?
f. Del total de hombres, ¿cuántos prefieren usar el servicio de taxi por reuniones?

UPCPC
MA44 Estadística 34

5. Corporación Industrial Aceros Metálica S.A. se


dedica a la fabricación de hierro esponja,
palanquillas de acero, barras helicoidales,
alambrón de construcción y aceros calibrados. El
jefe de Control de Calidad desea realizar un control
a las barras de construcción, para ello toma una
muestra aleatoria de 80 barras y analiza el límite
de fluencia y el uso de las barras de construcción. La variable límite de fluencia se ha
categorizado tal como se muestra en la tabla:

Del análisis de las variables se ha obtenido el siguiente gráfico:

100%
90%
% de barras de construcción

80% 36% 40%


40%
70% Regular
60%
Baja
50% 28% 24%
30% Alta
40%
30% Al límite
16% 20%
20% 20%
10% 20% 16%
10%
0%
Cimentación Columnas Vigas

Utilización de las barras


Fuente: Aceros Metálica S.A.

a. Coloque el título apropiado al gráfico.


b. Interprete el valor 36%
c. Del total de barras de construcción fabricadas utilizadas en cimentación, el 36% de ellas
tienen un límite de fluencia regular.
d. Si se seleccionaron 30 barras de construcción que fueron utilizadas en columnas, ¿En cuántas
de ellas su límite de fluencia fue clasificada como regular?

1.7 Organización de datos cuantitativos discretos


La variable cuantitativa discreta, además de presentar las frecuencias absolutas y relativas,
presenta dos frecuencias acumuladas. La frecuencia acumulada absoluta representada por Fi y
la frecuencia acumulada relativa representada por Hi.

Tabla de distribución de frecuencias

Frecuencia acumulada (Fi)


Representa el número de observaciones que caen hasta esa categoría.

UPCPC
MA44 Estadística 35

Título
Variable fi hi Fi Hi
0 f1 h1 F1 H1
1 f2 h2 F2 H2
2 f3 h3 F3 H3
. . . . .
k fk hk n 1
Total n 1
Fuente: ………………………………..………………………………….…..

Gráfico de bastones o líneas


Es un gráfico para variable cuantitativa discreta donde se representan los valores de la
variable y sus respectivas frecuencias absolutas, relativas o porcentuales.

Ejemplo

Distribución de empleados según número de capacitaciones

En base al siguiente gráfico identifique:


a. La unidad elemental: Un empleado de la empresa X

b. La variable en estudio: Cantidad de capacitaciones

c. Interprete el gráfico: 136 trabajadores han recibido al menos una capacitación. / 30

empleados cumplieron por lo menos 3 capacitaciones.

UPCPC
MA44 Estadística 36

Ejercicios

1. El jefe de Recursos Humanos desea información de la cantidad de faltas que han tenido los
trabajadores en el mes anterior. Por tal razón, seleccionó al azar a 30 trabajadores y registró
el número de faltas.

0 0 0 0 1 1 1 1 1 1 1 1 2 2 2
2 2 2 2 2 2 2 3 3 3 3 3 3 4 4

a. Con la información anterior, complete:

• La variable en estudio es …………………………………………………………………………………………………


• La unidad elemental es …………………………………………………………………………………………………..

Título: ……………………………………………………………………………………………………………………………

Número de faltas fi hi Fi Hi
0 4 4
1 8 12
2 10 22
3 28
4 30
Total
Fuente: ………………………………………….………..

b. Complete la tabla y llene los espacios en blanco:

• El porcentaje de trabajadores que asisten es: ____________________________________


• El número de trabajadores que tienen a lo más dos faltas es: _______________________
• Los trabajadores con problemas son aquellos con 3 o más faltas, ¿qué porcentaje de
trabajadores tienen problemas? ______________________________________________
• Interprete la primera frecuencia absoluta: ______________________________________
_________________________________________________________________________
• Interprete la tercera frecuencia relativa: ________________________________________
_________________________________________________________________________
• Interprete la cuarta frecuencia acumulada absoluta: ______________________________
_________________________________________________________________________

UPCPC
MA44 Estadística 37

c. Presente el gráfico adecuado para la variable en estudio. Interprete.

Interpretación

2. La siguiente información muestra el número de ladrillos defectuosos fabricados


diariamente en una de las plantas de la empresa Rex S.A. Se tomó una muestra aleatoria
de 50 días mostrándose los resultados a continuación:

Distribución de días según número de ladrillos defectuosos


N° ladrillos defectuosos fi hi Fi Hi
0 12
1 0.32
2 0.10
3 9
4 8 0.16
Total 50 1.00
Fuente: Ladrillera Rex

Si se encuentra al menos un ladrillo defectuoso, en más de 40 días, el Gerente de Rex S.A deberá
revisar su sistema de fabricación. ¿Se deberá revisar el sistema?

UPCPC
MA44 Estadística 38

1.8 Organización de datos cuantitativos continuos


Pasos para elaborar la tabla de distribución de frecuencias

• Obtener el rango (R) o recorrido: R = dato máximo – dato mínimo


• Calcular el número de intervalos k = 1+ 3.322 log 10 n . (redondeado al entero más próximo).
• Calcular la amplitud del intervalo w = R/k. (redondeado por exceso y con el mismo número
de cifras decimales que tienen los datos).
• Obtenga las frecuencias absolutas y relativas con sus respectivas frecuencias acumuladas.
• Obtenga la marca de clase a través de la siguiente fórmula: Lím Inf i + Lím Sup i
xi/ =
2
Datos:
(a) 0 decimales: → w = 9,03456 → w =10
(b) Una cifra decimal: → w= 135,4471 → w= 135,5
(c) Dos cifras decimales: → w= 33,5561 → w= 33,56

Ejercicios
1. Se ha llevado a cabo un estudio para evaluar el tiempo, en horas, que utiliza cada
trabajador de una planta hidroeléctrica para verificar el normal funcionamiento de la
tubería de presión y las válvulas de control. Para ello se eligieron al azar 30 de ellos.

0.08 0.15 0.19 0.71 0.75 0.82 0.84 0.92 0.96 1.16 1.17 1.19 1.23 1.4 1.47
1.59 1.61 2.01 2.16 2.38 2.42 3.07 3.22 3.53 3.76 3.94 4.5 4.59 4.75 5.41

Elemento: Un trabajador de una planta hidroeléctrica.


X = Tiempo en horas que utiliza para verificar el normal funcionamiento de la tubería de
presión y las válvulas de control
Tipo y escala: Variable cuantitativa continua / Razón

▪ Calcule el rango (R) o recorrido


R = 5,33
▪ Determine el número de intervalos (k)
k = 5,91 → 6
▪ Determine el tamaño del intervalo de clase (w)
w = 0,8883 → w= 0,89

UPCPC
MA44 Estadística 39

Título: Distribución de los trabajadores de una planta hidroeléctrica según las horas que
utiliza para verificar el normal funcionamiento de la tubería de presión y las válvulas de
control

i Intervalo x’i fi Fi h Hi
1 [0,08 – 0,97] 0,525 9 9 0,3 0,3
2 ]0,97 – 1,86] 1,415 8 17 0,2667 0,5667
3 ]1,86 – 2.75] 2,305 4 21 0,1333 0,7
4 ]2.75 –3,64] 3,195 3 24 0,1 0,8
5 ]3,64 –4,53] 4,085 3 27 0,1 0,9
6 ]4,53–5,42] 4,975 3 30 0,1 1

Fuente: La planta hidroeléctrica

Interprete los valores de las siguientes frecuencias:

Son 8 trabajadores de una planta hidroeléctrica que han empleado un tiempo


f2 mayor a 0,97, pero como máximo 1,86 horas para verificar el funcionamiento
de la tubería de presión y válvulas de control.

El 26,67 % de los trabajadores de una planta hidroeléctrica que han empleado


h2 (%) un tiempo mayor a 0,97, pero como máximo 1,86 horas para verificar el
funcionamiento de la tubería de presión y válvulas de control.

Son 24 de una planta hidroeléctrica que han empleado un tiempo como máximo
F4 3.64 horas para verificar el funcionamiento de la tubería de presión y válvulas
de control.

El 80% de una planta hidroeléctrica que han empleado un tiempo como máximo
H4 (%) 3.64 horas para verificar el funcionamiento de la tubería de presión y válvulas
de control.

UPCPC
MA44 Estadística 40

2. Use la regla de Sturges para construir la tabla de distribución de frecuencias del monto de
venta diario, en cientos de soles, de la empresa Beta Systems S.A.

52.0 94.7 95.1 97.5 102.5 104.1 106.0 125.2 125.6 146.0
146.8 158.6 158.7 162.6 166.2 166.2 166.2 166.2 168.2 169.7
196.0 204.9 204.9 204.9 204.9 208.3 215.2 217.5 218.1 218.1
218.1 218.1 220.9 226.2 235.0 239.7 242.2 259.6 261.6 277.2
286.5 287.0 297.8 313.9 315.0 316.2 338.6 359.9 363.1 398.3

Variable en estudio

Elemento

Cálculos

Título: ………………………………………………………………………………………………………………………………
Lim Inf Lim Sup x´i fi hi Fi Hi

Fuente: ……………………………………………………………………………

Interprete los valores de las siguientes frecuencias:

f2

h3 (%)

F4

H2 (%)

UPCPC
MA44 Estadística 41

Gráficos de una variable cuantitativa continua

Son gráficas que representan las observaciones obtenidas de la variable cuantitativa continua.

Distribución de número de trabajadores según el HISTOGRAMA


tiempo
Es una gráfica de barras cuyos valores del
eje X son los intervalos de clase. Además,
la altura de las barras está determinada
por las frecuencias relativas de los
intervalos de clase. Según el interés del
Límite inferior / Límite superior estudio se pueden considerar también,
las frecuencias absolutas.

POLÍGONO

Para ver la forma de distribución


Es una gráfica donde los valores del eje X
son las marcas de clase. Para cerrar el
polígono se debe aplicar el siguiente
artificio: Restar a la primera marca de
clase el valor de la amplitud y sumar a la
última marca de clase el valor de la
amplitud. Según el interés del estudio se
pueden considerar también, las
frecuencias absolutas.
-w +w

OJIVA
Numero acumulado de trabajadores

Es una gráfica donde los valores del eje X


son los límites superiores. Es una gráfica
creciente a la que debe aplicarse el
siguiente artificio: El primer valor del eje
X es el dato más pequeño del conjunto
de datos o valor mínimo o valor del
primer límite inferior. Según el interés
del estudio se pueden considerar
también, las frecuencias absolutas.

LI1 Límite superior

UPCPC
24 trabajadores han empleado como máximo 3,64 horas para verificar… Hi o Fi
MA44 Estadística 42

Ejercicios propuestos

1. Investigadores del Massachussets Institute of Technology (MIT) estudiaron las propiedades


espectroscópicas de asteroides de la franja principal, con un diámetro menor a los 100
kilómetros. Los asteroides se observaron con el telescopio Hiltner del observatorio de MIT;
se registró el número de exposiciones de imagen espectral independiente para cada
observación. Aquí se presentan los datos de 40 observaciones de asteroides obtenidas de
Science).

Número de exposiciones de imagen espectral independientes para 40 observaciones


de asteroides
3 4 3 3 1 4 1 3 2 3
1 1 4 2 3 3 2 6 1 1
3 3 2 2 2 2 1 3 2 1
6 3 1 2 2 3 2 2 4 2

Construir un gráfico de bastones para el número de exposiciones de imagen espectral.


2. En la producción de las piezas electrónicas, el tiempo de fabricación es muy importante, de
tal manera que el jefe de producción debería calibrar su maquinaria si verifica que hay por
lo menos 30% de piezas electrónicas cuyo tiempo de fabricación es más de 10,55 minutos.
¿Deberá el jefe de producción calibrar su maquinaria? Se cuenta con la siguiente
información del tiempo de fabricación en una muestra de 30 piezas electrónicas.

Distribución de piezas electrónicas según tiempo de fabricación

Tiempo de fabricación X´i fi hi Fi Hi


4,71 0,100
7,63 2
8
5 0,167
11,28 7

30
Fuente: Metronics S.A.

UPCPC
MA44 Estadística 43

3. Corporación Domar S.A.C. es una empresa peruana ubicada


en la ciudad de Lima con más de ocho años de experiencia
en el sector Industrial. La empresa ejecuta proyectos de
instalación de sistemas mecánicos y electrónicos, además
brinda un servicio industrial de mantenimiento
especializado de maquinarias y laboratorios en todas las
especialidades de ingeniería. Debido a las expectativas de las utilidades del último
trimestre, la meta del gerente del área de servicios es que por lo menos el 40% de servicios
tengan precios netos por el servicio mayores a s/ 33 900.00. De llegar a cumplir la meta, el
gerente será reconocido con una bonificación por parte del directorio. ¿Cuál será la decisión
del directorio? Los registros del último trimestre se presentan a continuación:

N° de Número de Precio neto del servicio


Tipo de servicio
servicio ingenieros (en miles de soles)
1 5 23.3 Mantenimiento preventivo
2 4 27.5 Instalación de laboratorios
3 7 23 Mantenimiento preventivo
4 3 28.1 Mantenimiento correctivo
5 4 34.5 Instalación de laboratorios
6 7 38.4 Instalación de máquinas industriales
7 5 28.1 Mantenimiento correctivo
8 5 30.7 Instalación de laboratorios
9 3 31.9 Mantenimiento correctivo
10 3 30.7 Mantenimiento preventivo
11 3 26.5 Mantenimiento preventivo
12 4 36.9 Instalación de máquinas industriales
13 6 30.7 Instalación de laboratorios
14 3 29 Instalación de máquinas industriales
15 3 38.1 Mantenimiento correctivo
16 5 31.2 Instalación de laboratorios
17 4 35.8 Instalación de laboratorios
18 7 34 Instalación de máquinas industriales
19 5 35 Mantenimiento correctivo
20 3 28 Mantenimiento correctivo
21 6 31.2 Instalación de máquinas industriales
22 5 28.2 Mantenimiento preventivo

1.9 Métodos numéricos para describir datos cuantitativos

UPCPC
MA44 Estadística 44

1.9.1 Definiciones
Parámetro
Es una medida de resumen que caracteriza a la población. Para obtener su valor se hace
necesario contar con toda la información que brinda los elementos de una población. Por
ejemplo, el promedio poblacional (µ), varianza poblacional (σ 2).
Estadístico
Es una medida de resumen que caracteriza a la muestra. Para obtener su valor se utiliza la
información muestral. A los valores obtenidos de un estimador se conoce como estimación.
Por ejemplo: el promedio muestral (𝑥̅ ), varianza muestral (s2).
Los parámetros y estadísticos de mayor uso son:

Nombre Parámetro Estadístico


N n

Promedio  Xi X i
μ= i =1
X= i =1
N n

Varianza  (X i − μ) 2
2
∑𝑛𝑖=1(𝑋𝑖 − 𝑋)
2

σ2 = i =1 𝑠 =
n-1
N

Desviación estándar σ s

Nº de éxitos Nº de éxitos
Proporción p= p̂ =
N n

1.9.2 Medidas de tendencia central

Son aquellas que localizan el “centro” de una distribución, indicando el valor alrededor del
cual tienden a concentrarse ó distribuirse las demás observaciones. Lo que se persigue es
conseguir un valor que sea representativo del conjunto de datos que se está analizando.

Media aritmética (promedio)


La media llamada también promedio, se define como el cociente de la suma de los valores
observados de la variable en estudio y el número de observaciones.
Características de la media
• Es un estadístico o parámetro muy conocido y de fácil comprensión.
• Se puede calcular para variables de escala intervalo o razón.

UPCPC
MA44 Estadística 45

• La mayor desventaja es que se ve afectado por valores extremos, es decir si hay valores muy
pequeños o grandes, la media no los representaría adecuadamente.

x i
Para datos simples (no agrupados) se calcula por x= i =1

n
k

fx i i
Para datos discretos (agrupados) se calcula por x= i =1

n
k

fx i i
/

Para datos continuos (agrupados) se calcula por x= i =1

Ejemplo

Los siguientes datos son medidas de la resistencia al rompimiento (en onzas) de una muestra
de hilos de lino:

15,2 15,8 16,2 18,5 19,4 20,6 21,2 21,9 25,4 27,3 28,3 29,5 32,5 33,7 36,9
n

x i
(15,2 + 15,8 + 16,2 + ... + 32,5 + 33,7 + 36,9)
x= i =1
= x= = 24,16
n 15
Interpretación: La resistencia promedio al rompimiento de los hilos es de 24,16 onzas.

Ejercicio
discretos (agrupados)
1. Calcule e interprete la media para el número de hijos obtenida a partir de una muestra de 35
familias.

Número de hijos fi
0 13
1 6
2 8
3 6
4 2

UPCPC
MA44 Estadística 46

2. Calcule el tiempo promedio de verificación, en horas, para una muestra de trabajadores e


interprete.
continuos (agrupados)

Intervalos fi x’i
0.02 - 0.81 6
0.81 - 1.60 13
1.60 - 2.39 4
2.39 - 3.18 3
3.18 - 3.97 2
3.97 - 4.76 2

El promedio de horas …

Mediana
Es el valor que ocupa el lugar central de un conjunto de datos ordenados. Por tanto, es el valor
que divide en dos partes a dicho conjunto de datos.

Características de la mediana
• Se puede calcular para variables medidas en escala intervalo o razón.
• La mediana no se ve afectada por valores “extremos” (mínimo y máximo).
• Fórmula para datos no agrupados:

Si denotamos las observaciones ordenadas por x1, x2, x3, ... , xn , la mediana pude representarse
por:

me = x n +1 Si n es impar
2

x n +x n Es el promedio de los datos que se


+1
me = 2 2
Si n es par encuentran en la posición: [n/2] y [(n/2)+1]
2
Ejemplo

Los datos corresponden a una muestra de baterías cuyas lecturas de voltaje (en voltios) son:

9.84 9.96 9.98 9.99 10.00 10.00 10.05 10.12 10.26 25.00

Calcule e interprete el valor de la mediana.

UPCPC
MA44 Estadística 47

x n +x n
+1 x 5 +x 6
Me = 2 2
= = 10
2 2

Interpretación: El 50% de las baterías tienen una lectura máxima de 10 voltios

Ejercicio
Los siguientes datos corresponden a la distribución del número de piezas defectuosas
producidas en una muestra de 150 días. Calcule e interprete el valor de la mediana.
Variable fi
Número de piezas defectuosas Número de días Fi
0 50 50
1 60 110
2 25 135
3 10 145
4 5 150

Me= (X75+ X76) / 2 = (1+1) /2= 1 pieza defectuosa

El 50% de los días se han producido como máximo una pieza defectuosa.

Moda (Valor de la variable)


La moda de un conjunto de datos es aquel valor que se repite con mayor frecuencia.

Características de la moda
• La moda se puede calcular para cualquier escala de medición.
• El valor de la moda no se ve afectada por valores extremos.
• La moda no siempre es un valor único.
• Un conjunto de datos puede tener dos modas (bimodal) o más de dos modas (multimodal o
polimodal).
• Se puede dar el caso de que el conjunto de datos no tenga moda.

Ejemplo
Los siguientes datos corresponden a una muestra de baterías cuyas lecturas de voltaje se
presentan a continuación:

9,84 9,92 9,98 9,99 10,00 10,00 10,05 10,12 10,26 25,00

Moda = 10

Interpretación: La lectura de voltaje más frecuente es de 10 voltios.

UPCPC
MA44 Estadística 48

Ejercicio

Renacer S.A fabrica Hornos de Microondas, encargo al jefe de control de calidad que informe
cual es el problema más frecuente encontrado en los hornos microondas. Se tomó una muestra
del área de reparaciones y estos fueron los resultados:

Problemas (Variable) Número de hornos(fi)


De capacidad de descongelación 6
Velocidad de calentamiento 14
Cable de alimentación 3
Fuga de la microondas 8
Frecuencia de la microondas (MHz) 9
Potencia de microondas (W) 10

Con la información presentada, ¿qué problema se presenta con mayor frecuencia?


Mo= Velocidad de calentamiento
Interpretación: El problema que se presenta con más frecuencia es la velocidad de
calentamiento

1.9.3 Medidas de posición o Cuantiles

Se define así a un número real que divide a un conjunto de datos en dos partes con porcentajes
especificados debajo y sobre este valor. Para su cálculo, los datos deben estar previamente
ordenados.

Cuartil (Q)
Divide al conjunto de datos en 4 partes porcentualmente iguales. Se denotan Q1, Q2 y Q3 que
son los correspondientes percentiles P25 , P50 y P75 .

Decil (D)
Divide al conjunto de datos en 10 partes porcentualmente iguales, hay nueve deciles D1, D2,
…, D9 que son los correspondientes percentiles P10 , P20 , .., y P90 .

Percentil (P)
Divide un conjunto de datos en 100 partes porcentualmente iguales. Dado un percentil Pk,
este divide el conjunto de datos en dos partes, la inferior que contiene el K% de datos y la
superior que contiene el (100-k)% de datos.

UPCPC
MA44 Estadística 49

K% (100-K)%

P
K

Para datos no agrupados:

Primero debe ordenarse los datos en orden creciente o decreciente. Luego, para hallar el
percentil Pk se sugiere los siguientes pasos:

• Calcular el valor de la posición que ocupa el percentil Pk en la lista k (n + 1)


i= = E, d
de datos ordenados que está determinada por la siguiente 100
expresión:

• Luego, Pk = X ( E ) + 0, d * ( X ( E +1) − X ( E ) )

Donde: E : parte entera y d : parte decimal

Ejercicio

1. Suponga que los promedios ponderados de una muestra de 12 ingenieros civiles egresados
se muestran a continuación:

14.5 15.5 15.5 16.2 16.2 16.5 16.5 17.0 17.1 17.3 17.5 17.6

a. Calcule e interprete el valor del D4

b. Si se desea contratar a un egresado que pertenezca al quinto superior, ¿Qué percentil debe
calcular y cuál es la nota mínima que debería de tener?

UPCPC
MA44 Estadística 50

2. Una muestra de 30 trabajadores de una plataforma petrolera marina formó parte de un


ejercicio de escape del área. Para ello se registraron los siguientes tiempos, en minutos,
empleados en la evacuación.

31.5 32.5 32.5 33.4 33.9 34.0 35.6 35.6 35.9 35.9
36.3 36.4 36.9 37.0 37.3 37.3 37.4 37.5 38.0 38.9
39.2 39.3 39.4 39.7 40.2 40.3 41.5 42.4 42.8 44.5

a. ¿Cuál es el tiempo mínimo registrado por el 18% de trabajadores que emplearon más tiempo
en la evacuación de la plataforma?

b. ¿Cuál es tiempo máximo empleado por el 28% de trabajadores que emplearon menos tiempo
en la evacuación de la plataforma?

3. Investigadores del Massachussets Institute of Technology (MIT) realizaron, 9 de abril de


1993, un estudio sobre asteroides. Al observar 40 de estos asteroides con el telescopio
Hiltner del observatorio de MIT; se registró el número de exposiciones de imagen espectral.

Número de exposiciones de imagen espectral


1 1 1 1 1 1 1 1 1 2
2 2 2 2 2 2 2 2 2 2
2 2 3 3 3 3 3 3 3 3
3 3 3 3 4 4 4 4 6 6
Elabore la Tabla de frecuencia

Título: ………………………………………………………………………………………………………………………..

UPCPC
MA44 Estadística 51

Número de exposiciones fi hi Fi Hi
1
2
3
4
6
Total

a. El mínimo número de exposiciones obtenidos en el 15% de los asteroides con mayores


exposiciones es: ________________que corresponde al percentil ___________________

b. Se desea categorizar a los asteroides según su número de exposiciones en categorías baja,


media y alta ¿Cuáles serán los límites de este si la categoría media contiene al 50% central
de la cantidad de asteroides?

1.9.4 Medidas de variación o dispersión Que tan próximos o alejados se encuentran los datos
respecto a su promedio.

Son aquellas que cuantifican que tan dispersos o concentrados se encuentran los datos respecto
de una medida de tendencia central. Los datos que están relativamente cercanos entre sí,
tienen bajas medidas de variabilidad, mientras que los que están más alejados entre sí tienen
medidas de variación más grandes.

Varianza
Es una medida del grado de dispersión o variación de los valores de una variable con
respecto a su media aritmética.
Las unidades en las que queda expresada la varianza son unidades al cuadrado. Esta medida
no tiene interpretación.
La varianza de una muestra se denota por s2, mientras que la de una población se denota
por  2

UPCPC
MA44 Estadística 52

Varianza poblacional
N

 (x − )
2
i
2 = i =1

N
Varianza muestral para datos simples

 (x − x)
2
i
s2 = i =1

n −1

Varianza muestral para datos agrupados discretos y continuos

2 2

 f (x − x)
k k

 f (x − x)
i i i i
/

s =2 i =1
s =
2 i =1

n −1 n −1

Desviación estándar
La desviación estándar es la raíz cuadrada positiva de la varianza
Se denota por s cuando es calculada de una muestra y por  cuando es poblacional.

Nota: Para calcular la varianza y desviación estándar usaremos su


calculadora científica.
Video: https://www.youtube.com/watch?v=Ds4vXpZ5jOw

Ejemplo

Calcule la varianza y la desviación estándar para la cantidad de plomo en una muestra de agua
potable en miligramos por litro.

35 73 30 15 36 60 47 19 15 38 10 35 31 21 22 20

• Varianza: s2 = 290.63 (mg/l)2


• Desviación estándar: s=17.05 (mg/l)
Ejercicio

1. Calcule la varianza y desviación estándar del número de accidentes automovilísticos en una


muestra de 100 días:

Nro de accidentes
0 1 2 3 4
automovilísticos

UPCPC
MA44 Estadística 53

fi 10 15 30 35 10

2. Calcule la varianza y desviación estándar de los tiempos de exposición, en minutos, de un


metal a una sustancia química. Los resultados de una muestra de 66 reacciones son las
siguientes:
Intervalos fi xli X= x’ i
[15.2 – 17.2[ 12
[17.2 – 19.2[ 13
[19.2 – 21.2[ 20
[21.2 – 23.2[ 16
[23.2 – 25.2] 5
Total 66

Calcule la varianza y desviación estándar.

Coeficiente de variación (dispersión relativa)


Es una medida de dispersión relativa libre de unidades por lo que es útil para comparar la
variabilidad de dos o más grupos de datos expresados en distintas unidades de medida o
cuando los promedios de los conjuntos de datos a comparar son diferentes.
El coeficiente de variación proporciona una estimación de la magnitud de las desviaciones
con respecto a la magnitud de la media.
s
CV =  100%
x
promedio

Ejemplo

A continuación, se presentan los tiempos de transmisión de un archivo, en segundos, evaluados


en empresas que adoptaron la Tecnología WAN y la Tecnología LAN bajo condiciones similares.

Tecnología LAN Frecuencia


108 111 3
111 114 35
114 117 66
117 120 57

UPCPC
MA44 Estadística 54

120 123 29
123 126 16

Tecnología
138 126 125 124 119 119 137 110 119 155 123 124 126 126 129
WAN

Determine para qué tipo de Tecnología utilizada los tiempos de transmisión de datos son más
homogéneos. Justifique numéricamente su respuesta.

Tecnología WAN Tecnología LAN

s=
s = 10,45
x = 126,67 x=
cv = 8,25%
cv =
Interpretación: La tecnología que presenta los tiempos de transmisión de datos más
homogéneos es …………………………………………………………………………………………………………………
Ejercicio

1. La empresa Electro, dedicada a la venta de artefactos electrónicos para el hogar, opera 200
tiendas en diferentes lugares del país. Los últimos informes indican que las ventas
mensuales han descendido a tal punto que se han tenido que cerrar algunas tiendas. El
gerente, con el fin de enfrentar el problema, ha determinado que es necesario un estudio
estadístico de las ventas semanales (en miles de soles) de un producto electrónico en tres
de sus principales tiendas: Aptao, Azufral y Brento. Las muestras tomadas al azar de cada
tienda arrojaron los siguientes resultados:

Número de Número de
Ventas Aptao Ventas Brento
semanas semanas
100 – 200 5 20 2
200 – 300 14 40 8
300 – 400 21 60 25
400 – 500 7 80 20
500 – 600 3 100 8
Total 50 Total 63

UPCPC
MA44 Estadística 55

Ventas Azufral 120 200 100 50 45 120 100 100 90 75 100 210 100 50 120

a. Calcule la media y la varianza de las ventas en Azufral, Aptao y en Brento.

b. Determine en cuál de las tiendas las ventas realizadas son más homogéneas. Justifique
numéricamente su respuesta.

2. En el medio local hay dos plantas (Planta 1 y Planta 2) que se dedican a la fabricación de
barras de acero para la construcción. Las empresas proveedoras de barras de acero para la
construcción, que abastecen al mercado constructor, desean averiguar acerca de la
resistencia media a la tracción y la desviación estándar, para ello, se tomaron muestras
aleatorias en ambas plantas y la información registrada acerca de la resistencia a la tracción
(en Kg/cm2) se muestra en las siguientes tablas:

Resistencia a la tracción (Planta 1) fi


69.220 – 70.436 14
70.436 – 71.652 5
71.652 – 72.868 6
72.868 – 74.084 8
74.084 – 75.300 7
75.300 – 76.516 17
76.516 – 77.732 5
Total 62

Estadísticas descriptivas: Resistencia a la tracción: Planta 2

Variable n Media Desv.Est. Varianza Mínimo Máximo


Tracción 62 64.52 2.983 8.899 61.220 69.856

Realice el análisis adecuado para la dispersión y responda ¿qué planta es más heterogénea en
las resistencias a la tracción? Sustente su respuesta estadísticamente.

UPCPC
MA44 Estadística 56

3. Las represas constituyen una de las principales causas directas e indirectas de


contaminación ambiental. Una de estas causas es la filtración de sustancias contaminantes
originando el debilitamiento de la densidad de la superficie en la cual está construida la
represa. Los resultados que Andino S.A. obtuvo sobre las densidades de los terrenos en
represas calificadas con impacto ambiental regular y en represas con impacto ambiental
fuerte se presentan a continuación:

Densidad del terreno en represas con impacto ambiental regular


15,2 20,7 16,6 22,7 35,6
17,1 25,2 26,6 10.4 23,6
Para que una represa siga funcionando, la Confiep establece el cumplimiento de dos
condiciones:

• Condición 1: La densidad promedio del terreno con impacto ambiental (regular o fuerte)
donde se ubica la represa debe ser por lo menos 17,5 gr/cm3 para que ésta no se derrumbe.
• Condición 2: La densidad del terreno donde se ubica la represa con impacto ambiental
(regular o fuerte) debe tener una variabilidad relativa de a lo más 34%.

Verifique las condiciones de tal manera que pueda presentar un informe que ayude a identificar
qué tipo de represa (con impacto ambiental fuerte o regular) está habilitada para su normal
funcionamiento.

UPCPC
MA44 Estadística 57

4. En una reciente entrevista, el presidente de la Confederación Nacional de Instituciones


Empresariales Privadas (Confiep), sostuvo que, en el país, y a largo plazo, la mejor forma de
prevenir los desastres naturales es la construcción de represas y reservorios.
Debido a la previsión de falta de agua, la Confiep ha encargado realizar un nuevo estudio
de prefactibilidad a cargo de profesionales de ingeniería civil, en zonas cercanas a los ríos
de la costa norte del país, Tumbes, Piura, y Lambayeque, para decidir la construcción de
una represa.
La información recogida se presenta a continuación:
Zonas Tipo de estructura ríos caudal del río (m3/segundo)
1 cimientos Tumbes 13.3
2 cimientos Tumbes 20.9
3 cimientos Tumbes 35.7
4 cimientos Tumbes 41.9
5 cimientos Tumbes 42.2
6 cimientos Tumbes 48
7 cimientos Tumbes 49.7
8 cimientos Tumbes 52.4
9 cimientos Tumbes 52.4
10 cimientos Tumbes 56.3
11 cimientos Tumbes 62.5
12 cimientos Piura 38.1
13 cimientos Piura 40.3
14 cimientos Piura 49.8
15 excavaciones Piura 56.2
16 excavaciones Piura 57.2
17 excavaciones Piura 61.3
18 excavaciones Piura 61.3
19 excavaciones Piura 71.1
20 excavaciones Piura 77.5
21 excavaciones Lambayeque 34.4
22 excavaciones Lambayeque 42.8
23 excavaciones Lambayeque 42.8
24 terraplenes Lambayeque 44.5
25 terraplenes Lambayeque 48.1
26 terraplenes Lambayeque 49.4
27 terraplenes Lambayeque 54.3
28 terraplenes Lambayeque 56.1
29 terraplenes Lambayeque 61.4

UPCPC
MA44 Estadística 58

30 terraplenes Lambayeque 65.7

a. Según los especialistas un punto muy importante a considerar al momento de diseñar la


ubicación de las represas es evaluar el caudal (m3/segundo) en cada uno de los ríos (Tumbes,
Piura y Lambayeque), porque si el caudal es muy bajo la represa no almacenaría la cantidad
de agua esperada para su posterior distribución. Por ello, el gerente de la empresa decidirá
construir la represa en aquella zona, que concentre los caudales del río en los valores más
altos. Según los resultados, ¿Cuál sería la recomendación de ustedes al gerente de la
empresa?

b. Ingenieros especialistas indicaron, que se debe realizar la construcción de la represa en


aquella zona que presente menor variabilidad posible en el caudal del río. Según la
información analizada, ¿en cuál de los ríos es más propicia la construcción de la represa?

UPCPC
MA44 Estadística 59

1.9.5 Coeficiente de asimetría de Pearson (Forma de la distribución de un


conjunto de datos)
Mide si los datos aparecen ubicados simétricamente o no respecto de la media.

Cálculo del coeficiente de asimetría de Pearson


El coeficiente de asimetría para datos simples o agrupados se calcula con la siguiente fórmula:

 x − Mediana 
As = 3 
 s 

Si el coeficiente de simetría As es:

asimétrica positiva simétrica asimétrica negativa

Ejercicio

Complete los siguientes textos:

• Si un grupo de datos tiene un coeficiente de asimetría negativo, esto significa que hay una
concentración de datos en los valores ………………………………………………………………..………………………………

• Si un grupo de datos tiene un coeficiente de asimetría positivo, esto significa que hay una
concentración de datos en los valores ……………………………………………………………………..…………………………

• En un país como el Perú, los sueldos de las personas seguramente tienen un coeficiente de asimetría
……………………………………………….………..…….., porque ………………………………..…………………………………………

• En un examen de Estadística, los tiempos que toman los alumnos en resolverlo seguramente tienen
un coeficiente de asimetría …………………………………….., porque ……………………………………………………………

Ejercicio

UPCPC
MA44 Estadística 60

1. COMASA S.A. es una empresa que produce artículos pesados de acero y dispone de un
equipo especializado de operarios que se capacitan constantemente. El último año se ha
observado un aumento en el número de accidentes, incrementándose así el costo de
atención inmediata. Con el propósito de implementar estrategias de prevención de
accidentes, se analizarán los costos de la planta de producción de Lima Sur. A continuación,
se presenta la información, en miles de soles:

8 9 10 11 11 12 12 13 13 13 13 14
14 15 15 16 17 17 18 18 19 19 20 21
22 23 24 25 25 26 27 28 28 29 30

a. ¿Qué forma presenta la distribución de esta variable? Presente la gráfica.

b. Analizando la forma de la distribución, ¿es preocupante para la empresa? Sustente su


respuesta.

2. COVISA, empresa de construcción civil, compra actualmente los ladrillos al proveedor FAX
S.A. Para continuar con el proveedor o cambiarlo, ha decidido realizar un análisis de la
resistencia transversal de los ladrillos, en Mn/m2. A continuación se presentan los resultados
de una muestra de 40 ladrillos fabricados por el proveedor:

3 4 4 4 5 5 6 6 6 7
8 8 8 8 8 9 9 9 10 11
11 11 11 11 11 12 12 12 12 13
13 13 14 15 15 17 17 18 19 20

UPCPC
MA44 Estadística 61

¿Qué forma presenta la distribución de esta variable? Presente la gráfica.

3. Zinder y Crisis (1990), presentaron un algoritmo híbrido para resolver un problema de


programación matemática polinomial cero-uno. El algoritmo incorpora una combinación de
conceptos pseudo booleanos y procedimientos de enumeración implícitos probados y
comprobados. Se resolvieron 52 problemas al azar utilizando el algoritmo híbrido; los
tiempos de resolución (tiempos de CPU en segundos) se listan en la siguiente tabla.

0.045 0.036 0.045 0.049 0.064 0.07 0.079 0.088 0.091 0.118 0.13 0.136
0.136 0.136 0.145 0.179 0.182 0.182 0.194 0.209 0.209 0.227 0.242 0.258
0.258 0.258 0.291 0.327 0.333 0.336 0.361 0.379 0.394 0.412 0.445 0.506
0.554 0.567 0.579 0.6 0.67 0.912 1.055 1.07 1.267 1.639 1.894 3.046
3.888 3.985 4.170 8.788

a. ¿Cuál es el tiempo máximo de resolución de un problema para ser considerado dentro


del 10% de los más rápidos?
b. ¿Cuál es el tiempo mínimo de resolución de un problema para ser considerado dentro
del 20% de los menos rápidos
c. Se desea categorizar a los problemas según sus tiempos de resolución en categorías
normal, media y alta ¿Cuáles serán los límites de cada una de ellas si la categoría media
contiene al 50% central de la cantidad de problemas?

4. Los ingresos mensuales de una muestra de pequeños comerciantes se tabularon en una


distribución de frecuencias simétrica de 5 intervalos de igual amplitud resultando que el
ingreso mínimo es de 125 dólares y la marca de clase del cuarto intervalo es de 300 dólares.
Si el 8% de los ingresos son menores que 175 dólares y el 70% de los ingresos son menores
a 275 dólares.

a. Determine las frecuencias relativas de cada intervalo.


b. ¿Qué porcentaje de ingresos son superiores a $ 285?

UPCPC
MA44 Estadística 62

5. A continuación, se presenta la Distribución del número de camiones enviados a cada obra desde Lurín
16
distribución del número de camiones 15

14
que atendió la planta de Lurín en cada
12
11
obra con el objetivo de “Evaluar

Número de obras
10
9
indicadores en las atenciones que 8
7
realiza la planta de Lurín”. 6
6

4
Calcule las medidas de tendencia 4
3

central e interprete los resultados. 2

0
1 2 3 4 5 6 7
Número de camiones
Fuente: Tricon S.A.

6. Cuando se diseña un puente los ingenieros deben determinar la tensión que el concreto
puede soportar. En lugar de probar cada pulgada cúbica de concreto para determinar su
capacidad de resistencia, los ingenieros toman una muestra, la prueban y llegan a la
conclusión sobre qué tanta tensión, en promedio, puede resistir este tipo de concreto. A
continuación, se presenta la tensión (en kg/cm2) obtenidos de una muestra de 30 bloques
de concreto que se utilizarán para construir un puente.

1.2 2.1 2.2 2.2 2.5 2.5 2.6 2.6 2.7 2.8
3.0 3.0 3.2 3.2 3.2 3.4 3.4 3.5 3.5 3.6
3.6 3.6 3.6 3.7 3.8 3.9 3.9 4.0 4.0 4.0

Calcule las medidas de tendencia central e interprete los resultados.

Unidad 2. Probabilidades
2.1 Definiciones
Experimento aleatorio ()
Es una operación cuyo resultado no se puede predecir con certeza y que se realiza bajo las
siguientes condiciones:

Se puede repetir indefinidamente donde los resultados dependen del azar, por lo que no se
pueden predecir con certeza.
Se puede describir el conjunto de todos los resultados posibles.
Cuando se repite un gran número de veces, aparece un modelo definido de regularidad.

Ejemplos

UPCPC
MA44 Estadística 63

▪ 1: Lanzar un dado.


▪ 2 : Se lanzan dos monedas y se registra el resultado obtenido.
▪ 3 : Seleccionar un dispositivo electrónico y registrar si es defectuoso o no.
▪ 4 : Observar el tiempo de vida de un artefacto eléctrico.

Espacio muestral ( ó S)
Es el conjunto de todos los posibles resultados de un experimento aleatorio. Cada elemento de
este conjunto se le denomina punto muestral y se le denota con w.

Ejemplos

1= {1,2,3,4,5,6}
2= {cc,cs,sc,ss}
3 = {defectuoso, no defectuoso}
4 = {t/ t ≥ 0}

Evento
Es todo subconjunto del espacio muestral y representa cierta característica de ella.
Se denotan mediante las letras de nuestro alfabeto y en mayúsculas: A, B, C,…

Evento simple
Formado por un sólo un punto muestral. No se puede descomponer.

Ejemplos

Si 1= {1,2,3,4,5,6}, entonces {1},{2},{3},{4},{5},{6} son eventos simples


Si 2= {cc,cs,sc,ss}, entonces{cc},{cs},{sc},{ss} son eventos simples
Si 3 = {defectuoso, no defectuoso}, entonces {defectuoso},{no defectuoso} son eventos
simples

Evento compuesto
Formado por más de un punto muestral.

Ejemplos

Si 1= {1,2,3,4,5,6}, entonces A = {1, 3, 5} o A: Obtener un número impar es un evento


compuesto.

Si 2= {cc,cs,sc,ss}, entonces B= {cs,sc} o B: obtener dos valores diferentes en las caras
superiores de las dos monedas es un evento compuesto.

2.2 Operaciones con eventos

UPCPC
MA44 Estadística 64

Intersección

La intersección de dos eventos A y B es el evento que ocurre si tanto A como B, ocurren en


una sola realización del experimento. La intersección de los eventos A y B se denota
mediante el símbolo A  B

Unión

La unión de dos eventos A y B es el evento que ocurre si A o B, o ambos ocurren en una sola
realización del experimento. La unión de los eventos A y B se denota mediante el símbolo
A B

Eventos mutuamente excluyentes

Son aquellos eventos donde la ocurrencia de uno de ellos excluye la ocurrencia del otro,
esto es no pueden ocurrir los dos a la vez.

Ejemplo

En el experimento : Lanzamiento de un dado.


Sean los eventos:

A: Resulta un número menor que 5. B: Resulta un número par.

a. Obtenga la intersección y la unión de los eventos A y B


b. ¿Son los eventos A y B mutuamente excluyentes?

 = {1,2,3,4,5,6} A = {1,2,3,4} y B = {2,4,6}


A B = {1,2,3,4,6}
𝐴 ∩ 𝐵 = {2,4}
AB ≠  → Por tanto, los eventos no son mutuamente excluyentes.

Ejemplo

En el experimento : lanzamiento de dos dados, el espacio muestral es  = {(1,1), (1,2) (1,3),


…….(6,1), (6,2), (6,3), (6,4), (6,5), (6,6)}
Se definen los eventos:

A: obtener una suma de seis A = {(1,5), (5,1), (2,4), (4,2) (3,3)}


B: obtener una suma de cinco B = {(1,4), (4,1), (2,3), (3,2)}

Estos eventos son mutuamente excluyentes, dado que ambos a la vez no pueden ocurrir, esto
es AB = , es decir la intersección de los eventos no tienen elementos en común.

UPCPC
MA44 Estadística 65

Ejercicio

• Se realiza el siguiente experimento aleatorio → : lanzamiento de dos dados de seis caras.


Determine el espacio muestral.
• Sean los eventos: A: suma de los dados es 8; B: suma de los dados mayor a 6 y C: suma de los
dados menor a 9. Determine los elementos de los eventos.
• Obtenga la intersección de los eventos A y B, la unión de los eventos B y C ¿Son los eventos
A y C mutuamente excluyentes?

2.3 Probabilidad

Sea  un experimento aleatorio,  el espacio muestral asociado, y sea A un evento definido en


el espacio muestral ; la probabilidad del evento A es la medida del grado de posibilidad de
ocurrencia del evento A cuando se realiza una vez el experimento. La probabilidad de un evento
A será un número que denotaremos por P(A) y debe cumplir los siguientes axiomas:

• 0  P(A)  1
• P() = 1
• Sea {Ai},Ai, i=1,2,3,..,n una sucesión de eventos mutuamente excluyentes, entonces
n
P(A1A2A3…An) =  P( A )
i =1
i

• Si P(A) tiende a 0, es poco probable que el evento A ocurra.


• Si P(A) tiende a 1, es un muy probable que el evento A ocurra.

En un espacio muestral finito la suma de las probabilidades de todos los eventos simples Ei
debe ser igual a 1.

UPCPC
MA44 Estadística 66

 P( E ) = 1
i =1
i i = 1,2,3,..., k

Definición clásica de la probabilidad de un evento

Sea un experimento aleatorio cuyo correspondiente espacio muestral  está formado por un
número n finito de posibles resultados distintos y con la misma probabilidad de ocurrir,
entonces definimos la probabilidad de un evento A como sigue:
n ( A ) número de casos favorables al evento A
P ( A) = =
n () número total de casos

Eventos complementarios

El complemento de un evento A es el evento en el que A


no ocurre, es decir, el evento formado por todos los
eventos simples que no están en el evento A. El
complemento del evento A se denota mediante el símbolo
Ac.
A  Ac = Ω

La suma de las probabilidades complementarias es igual a 1.

P( A) + P( Ac ) = 1

Regla aditiva de la probabilidad

La probabilidad de la unión de los eventos A y B es la suma de las probabilidades de los


eventos A y B menos la probabilidad de la intersección de los eventos A y B:

P( A  B) = P( A) + P( B) − P( A  B)

A B B
ABC A∩B

Regla aditiva para eventos mutuamente excluyentes

UPCPC
MA44 Estadística 67

Si dos eventos A y B son mutuamente excluyentes, la probabilidad de la unión de A y B es


igual a la suma de las probabilidades de A y B:

P( A  B) = P( A) + P( B)

Ejemplo

El gerente de INGENIEROS METAC S.A.C., es una organización orientada a suministrar


productos, servicios y desarrollo de soluciones de ingeniería aplicada, considera que la
probabilidad de que los accidentes en Transmisiones & Ejes hayan sido ocasionados por las
conexiones eléctricas es 0,24, por falla mecánica es 0,18 y por conexiones eléctricas o falla
mecánica es 0,39. Si se selecciona al azar un accidente producido en Transmisiones & Ejes y
definiendo los eventos de interés:

E = {Accidentes por conexiones eléctricas}, M = {Accidentes por falla mecánica}


P ( E ) = 0,24 y P ( M ) = 0,18 → P ( E  M ) = 0,39

a. Determine la probabilidad que se haya producido por ambos tipos de falla.


P(EM)= P(E)+ P(M) -P(EM)
0,39 = 0,24 + 0,18 - P ( E  M )
P ( E  M ) = 0,03

b. ¿Cuál es la probabilidad de que el accidente se haya producido por solo un tipo de falla?
P ( E  M´ ) = P ( E) - P ( E  M ) = 0,24 - 0,03 = 0,21 o
P ( E´  M ) = P ( M) - P ( E  M ) = 0,18 - 0,03 = 0,15
P ( E  M´ ) + P ( E´  M ) = 0,36

Ejercicio

Después de una política de mejora de la calidad de la producción de Chemi-latex, tanto en el


área de llenado como el de sellado, los trabajadores fueron sensibilizados para realizar sus
labores de producción de la mejor manera y así disminuir los productos defectuosos en la
producción. Para corroborarlo se toma una muestra de 80 productos, encontrándose que 25
presentan defectos en el llenado, 32 presentan defectos en el sellado y 30 no presentaban
defectos. Si se selecciona un producto al azar.

a. Determine la probabilidad de que se hayan producido ambos tipos de defectos.

b. ¿Cuál es la probabilidad de que se haya producido solo uno de los tipos de defectos?

UPCPC
MA44 Estadística 68

c. ¿Los eventos defecto en el sellado y defecto en llenado son mutuamente excluyentes?


Explique.

2.4 Principios fundamentales de conteo


Comprende un conjunto de procedimientos que permiten determinar el número de resultados
de un suceso o experimento sin necesidad de utilizar una enumeración e identificación directa
de todos los posibles resultados de dicho suceso o experimento.

Analicemos los siguientes experimentos aleatorios:

1: lanzamiento de un dado


1= {1,2,3,4,5,6} es fácil listar y contar los posibles resultados

2: números pares de tres cifras que se pueden formar con los dígitos 1,2,3,4,5,6,7,8,9
2= {174,148,184,198,194,144, …} ya no es fácil listar y contar los posibles resultados
Ante esta situación es necesario utilizar técnicas que nos faciliten el conteo de estos posibles
resultados.

Principio de la multiplicación

Si un procedimiento A puede realizarse de “m” maneras y otro procedimiento B puede


realizarse de “n” maneras, entonces los dos procedimientos A y B (uno seguido del otro) ocurren
de m x n maneras o formas.

Ejemplo

Un ensamblador de computadoras tiene 4 microprocesadores de diferentes marcas y 3


memorias de diferentes marcas ¿de cuántas maneras posibles puede ensamblar una
computadora?

Principio de la adición

UPCPC
MA44 Estadística 69

Si un procedimiento A puede realizarse de “m” maneras y otro procedimiento B puede


realizarse de “n” maneras, y si no es posible que ambos se realicen en forma simultánea
entonces los dos procedimientos A o B ocurren de m + n maneras o formas.

Ejemplo

Un ingeniero de telecomunicaciones está proyectando un viaje a una provincia para instalar


una antena parabólica, debe decidir el viaje por bus o por tren. Si hay tres rutas para el bus y
dos para el tren ¿de cuántas maneras posibles puede realizar el viaje?

Técnica de conteo: Combinación

Es una técnica que permite contar el número de maneras de seleccionar o elegir


aleatoriamente “r” elementos de un total de “n”, sin considerar el orden de selección. Está
dado por:
n!
=
n
C r
r ! (n − r ) !

Ejercicios

1. Un grupo de 20 ingenieros civiles igualmente capacitados forman el staff de una empresa


constructora. Si se eligen al azar a 3 de ellos para participar en un proyecto, ¿de cuántas
maneras posibles se pueden seleccionar a estos 3 ingenieros?

2. De un grupo de ocho pequeñas empresas se sabe que dos no cumplen con sus obligaciones
tributarias. La Tunat revisará el cumplimiento de los tributos de todas las pequeñas
empresas si al seleccionar tres empresas, la probabilidad de que por lo menos una no

UPCPC
MA44 Estadística 70

cumple con sus obligaciones tributarias sea superior a 0.62 ¿Qué le recomendaría usted a
la Tunat?

Ejercicios propuestos

1. Una caja contiene 24 resistencias con etiqueta negra y 24 con etiqueta roja; de los de
etiqueta negra cinco son de 5 ohmios y el resto de 8 ohmios; mientras que los de etiqueta
roja doce son de 5 ohmios y el resto de 8 ohmios:

a) Si se selecciona una resistencia al azar de la caja, ¿cuál es la probabilidad que la


resistencia sea de 8 ohmios?
b) Si se seleccionan al azar dos resistencias de la caja, ¿cuál es la probabilidad que las dos
sean de igual color.
c) Si se seleccionan al azar tres resistencias de la caja, ¿cuál es la probabilidad que dos sean
de 5 ohmios y una de 8 ohmios?

2. Dos ingenieros civiles denominados A y B se distribuyen al azar en tres oficinas enumeradas


con 1, 2 y 3 respectivamente, pudiendo estar ambos en una misma oficina. ¿Cuál es la
probabilidad de que dos oficinas se queden vacías?

3. En una competencia para construir una pared participan cuatro obreros A, B, C y D. Uno de
ellos necesariamente debe ganar. Si la probabilidad de que gane A es el doble de la de B, la
de B es la mitad de C y la de D es el triple de A, ¿cuál es la probabilidad que gane A?

2.5 Probabilidad condicional


Si A y B son dos eventos de un espacio muestral Ω, entonces, la probabilidad condicional de
que ocurra el evento A dado B se determina por:

P(A∩B)
P (A/B) = , siendo P (B) > 0
P (B )
P(A) = A/ n(omega)

UPCPC
MA44 Estadística 71

Ejemplo

Para ocupar un puesto de trabajo en el departamento de diseño de ingeniería de una compañía


constructora de barcos, se han presentado postulantes, cuyas principales características se
resumen en el siguiente cuadro:

Egresado de ingeniería
No egresado de
Años de experiencia Mecánica Total
Industrial (I) universidad (N)
(M)
Al menos tres años de experiencia (A) 14 4 9 27
Menos de tres años de experiencia (B) 25 11 27 63
Total 39 15 36 90

El orden en que el gerente de la estación entrevista a los aspirantes es aleatorio. Determine la


probabilidad de que el primer entrevistado por el gerente:

a. Tenga menos de tres años de experiencia y sea egresado de ingeniería mecánica.

25
P (B ∩ M) = 90 = 0,278

b. Sea egresado de ingeniería mecánica o tenga al menos tres años de experiencia.

39 27 14
P (M U A) = P (M) + P (A) - P (M  A) = 90 + − = 0,578
90 90

c. No sea egresado de universidad si se sabe que tiene menos de tres años de experiencia.

27
(90)
P (N / B) = 63 = 0,429
(90)
d. Tenga al menos tres años de experiencia dado que es egresado de ingeniería industrial.

4
(90)
P (A / I) = 15 = 0, 267
(90)

Ejercicios
17
1. La probabilidad que la construcción de un edificio termine a tiempo es , la probabilidad
20
3
que no haya huelga es 4 , y la probabilidad que la construcción se termine a tiempo dado que
14
no hubo huelga es ; la probabilidad que haya huelga y no se termine la construcción a
15
1
tiempo es , Defina los eventos y calcule las siguientes probabilidades:
10

UPCPC
MA44 Estadística 72

a. La construcción se termine a tiempo y no haya huelga.

b. No haya huelga dado que la construcción se terminó a tiempo.

c. La construcción no se termine a tiempo si hubo huelga.

d. La construcción no se termine a tiempo si no hubo huelga.

2. Una empresa constructora emplea a tres ingenieros de ventas. El ingeniero 1 hace el trabajo
de estimar costos en 60% de las cotizaciones solicitadas a la empresa, el ingeniero 2 hace lo
mismo en 30% de las cotizaciones y el ingeniero 3 en el resto. Se sabe que la tasa de error
para el ingeniero 1 es tal que la probabilidad de encontrar un error en su trabajo es 0.02, la
probabilidad de encontrar un error en el trabajo del ingeniero 2 es 0.04 y la probabilidad de
encontrar un error en el ingeniero 3 es de 0.03. Suponga que al revisar una solicitud de
cotización se encuentra un error grave en la estimación de los costos. ¿Qué ingeniero
supondría usted que hizo los cálculos?

UPCPC
MA44 Estadística 73

3. El informe de la comisión mundial de represas (ONU, 2015) indica numerosos impactos


ambientales que logran dañar represas, provocando en ellas averías muy serias. La Confiep
debe recomendar un tipo de estructura antes de diseñar una nueva represa. Por registros
anteriores se sabe que en el Perú el 55% de las represas están hechas a base de cimientos,
el 28% con terraplenes y el resto con excavaciones. Además, se conoce que, cuando el diseño
de la estructura de la represa es a base de cimientos ésta no presenta averías en un 80%, si
es a base de terraplenes presenta averías en un 35% y si la estructura es a base de
excavaciones presenta averías en un 25%. Si se elige una represa al azar y ésta presenta
averías ¿Cuál es el tipo de diseño de estructura que debería recomendar la Confiep?

2.6 Regla multiplicativa de la probabilidad

De la definición de probabilidad condicional, obtenemos la fórmula para hallar la probabilidad


de la intersección (o producto) de los eventos A y B, esto es, de

P( A  B) = P( A | B) P( B) = P( B A) P( A)

Ejemplo

Si A y B son eventos tales que P(A) = 0.4,P(B) = 0.2 y P(A/B) = 0.5. Calcule: P(A  B) y P(Ac  B)

2.7 Eventos independientes

Los eventos A y B son independientes si la ocurrencia de B no altera la probabilidad de que


haya ocurrido A, es decir, los eventos A y B son independientes si:
P( A B) = P( A)

Si dos eventos no son independientes, se dice que son dependientes.

Regla multiplicativa para eventos independientes

Si los eventos A y B son independientes, la probabilidad de la intersección de A y B es igual


al producto de las probabilidades de A y B, es decir,

P( A  B ) = P( A) P( B)

Generalizando para los eventos independientes E1 , E2 , , Ek .

UPCPC
MA44 Estadística 74

P( E1  E2  ...Ek ) = P( E1 ) P( E2 ) P( Ek )
Propiedades

Si los eventos A y B son independientes, entonces también son independientes:

▪ AC y BC → P(ACBC) = P(AC) P(BC)


▪ AC y B → P(ACB) = P(AC) P(B)
▪ A y BC → P(ABC) = P(A) P(BC)

Esta propiedad se puede generalizar para más de dos eventos.


Leyes de Morgan

P(AB)C = P(ACBC)
P(AB)C = P(ACBC)

Estas leyes se pueden generalizar para más de dos eventos.

Ejemplo

Un sistema electrónico está compuesto por tres subsistemas A, B y C, de tal manera que las
probabilidades de fallar de cada uno son 0,15; 0,20 y 0,35. Si los subsistemas funcionan de
manera independiente, definir los eventos y calcular:

A = {El subsistema A falle} B = {El subsistema B falle}


C = {El subsistema C falle}

P(A) = 0,15 P(B) = 0,20 P(C) = 0,35


P(A´) = 0,85 P(B´) = 0,80 P(C´) = 0,65

a. La probabilidad de que al menos uno de los subsistemas falle.

S = {al menos uno de los sistemas falle} S´ = {Ningún de los sistemas falle}

P(S) = 1- P (S´) = 1 - P ( A´∩B´∩C´) = 1 - P ( A´) * P(B´) * P(C´)


P(S) = 1 – 0,85 * 0,80 * 0,65 = 0,558

b. La probabilidad de solo dos de los subsistemas funcione.

S2 = {sólo dos de los sistemas funcionen}

P(S2) = P ( A´∩B∩C´) + P ( A∩B´∩C´) + P ( A´∩B´∩C) =


P(S2) = P ( A´) *P(B) * P(C´) + P (A) * P(B´) * P(C´) + P (A´) * P(B´) * P(C)
P(S2) = 0,85 *0,20 * 0,65 + 0,15 * 0,80 * 0,65 + 0,85 * 0,80 * 0,35 = 0,4265

UPCPC
MA44 Estadística 75

Aplicación al sistema de componentes: Confiabilidad de Sistemas

Podemos aplicar el concepto de la independencia de eventos al caso en que se tenga un


sistema de componentes electrónicos acoplados en serie o en paralelo.

• Sistema en serie: Un sistema de componentes acopladas en serie funciona si todos sus


componentes funcionan. Sea 𝑭𝑨 = La componente A funciona; 𝑭𝑩 = La componente B
funciona Para que el sistema funcione 𝑭𝑺 , ambos deben funcionar.

P(𝑭𝑺 ) = P(𝑭𝑨 ∩ 𝑭𝑩) = P(𝑭𝑨 ) P(𝑭𝑩 )

Ejemplo

El sistema funcionará sólo si ambos componentes funcionan. El componente A funciona con


una probabilidad de 0.98 y el componente B funciona con una probabilidad de 0.95. Suponga
que A y B funcionan de manera independiente. Determine la probabilidad que el sistema
funcione.

P(FS ) = P(FA ∩ FB ) = P(FA ) P(FB ) = 0,98 * 0,95 = 0,931

• Sistema en paralelo: Un sistema de componentes acoplada en paralelo funciona, si al menos


una de sus componentes funciona. El sistema funcionará si alguno, C o D funcionan.

P(FS ) = P(FC ∪ F𝐷 ) = P(FC ) + P(F𝐷 ) − P(FC ∩ F𝐷 )


P(FS ) = P(FC ∪ FD) = P(F𝐶 ) + P(F𝐷 ) − P(FC )P( F𝐷 )
P(FS ) = 1 - P(NF𝐶 ) P(NF𝐷 )

Ejemplo

Los componentes C y D funcionan con una probabilidad de 0,90 y 0,85 respectivamente.


Suponga que C y D funcionan de manera independiente. Determine la probabilidad de que el
sistema funcione.

UPCPC
MA44 Estadística 76

P(FS ) = 1 - P(NFC ) P(NFD ) = 1 – 0,10 * 0,15 = 0,985

Ejercicio

Un sistema eléctrico consta de cuatro


componentes. El sistema funciona si los
componentes A y B funcionan, y si funciona
cualquiera de los componentes C o D. La
confiabilidad (probabilidad de que
funcionen) de cada uno de los
componentes también se muestra en la
figura. Suponga que los cuatro
componentes funcionan de manera independiente.

Calcule las siguientes probabilidades:

a. Que el sistema completo funcione.

b. Que el componente C no funcione, dado que el sistema completo funciona.

2.8 Probabilidad total y el teorema de Bayes


Probabilidad Total

UPCPC
MA44 Estadística 77

Sean los eventos A1 , A2 ,..., Ak ,los cuales forman una partición del espacio muestral 
mutuamente excluyentes y exhaustivos y sea E otro evento cualquiera de , se cumple:

P( E ) = P( A1 ) P( E / A1 ) + P( A2 ) P( E / A2 ) + ......... + P( Ak ) P( E / Ak )

Donde a la P(E) se le conoce como la probabilidad total.

Teorema de Bayes
Si los eventos A1 , A2 ,..., Ak , constituyen una partición del espacio muestral , entonces para
cualquier evento E de  la P(Ai|E) es:

P( Ai  E )
P( Ai | E ) = para i = 1, 2 ,  , k
P( E )
P( Ai ) P( E Ai )
P( Ai | E ) =
P( A1 ) P( E A1 ) + P( A2 ) P( E A2 ) + ... + P( Ak ) P( E Ak )

Ejemplo

Una cadena de tiendas de suministros de construcción vende tres marcas diferentes de


teodolitos. De sus ventas de teodolitos, 50% son de la marca 1 (la menos cara), 30% son de la
marca 2 y 20% son de la marca 3. Cada fabricante ofrece 1 año de garantía en las partes y mano
de obra. Se sabe que 25% de los teodolitos de la marca 1 requieren trabajo de reparación dentro
del periodo de garantía, mientras que los porcentajes correspondientes de las marcas 2 y 3 son
20% y 10%, respectivamente.

Definamos los eventos:

Ai = {Marca “i” adquirida} con i = 1,2,3


B = {Necesita Reparación} B’ = {No necesita reparación}

Con el diagrama del árbol:

UPCPC
MA44 Estadística 78

a. ¿Cuál es la probabilidad de que un comprador seleccionado al azar haya adquirido un


teodolito marca 1 que necesitará reparación mientras se encuentra dentro de garantía?

P(A1∩B) = P(B|A1) *P(A1) = 0,125

b. ¿Cuál es la probabilidad de que un comprador seleccionado al azar haya comprado un


teodolito que necesitará reparación mientras se encuentra dentro de garantía?

P(B) = P (marca 1 y reparación) + P (marca 2 y reparación) + P (marca 3 y reparación)


= P(A1∩B) + P(A2∩B) + P(A3∩B)
= P(B|A1) *P(A1) + P(B|A2) *P(A2) + P(B|A3) *P(A3) =0,125 + 0,06 + 0,020 = 0,205

c. Si un cliente regresa a la tienda con un teodolito que necesita reparación dentro de garantía,
¿cuál es la probabilidad de que sea un teodolito marca 1? ¿Un teodolito marca 2? ¿Un
teodolito marca 3?

𝑷(𝑨𝟏 ∩𝑩) 𝟎,𝟏𝟐𝟓


P (A1| B) = = = 0,6098
𝑷(𝑩) 𝟎,𝟐𝟎𝟓

𝑷(𝑨𝟐 ∩𝑩) 𝟎,𝟎𝟔𝟎


P (A2| B) = = = = 0,2927
𝑷(𝑩) 𝟎,𝟐𝟎𝟓

𝑷(𝑨𝟑 ∩𝑩) 𝟎,𝟏𝟐𝟓


P (A3| B) = = = = 0,0976
𝑷(𝑩) 𝟎,𝟐𝟎𝟓

Ejercicio

1. Una empresa se encuentra estudiando la posibilidad de importar para el próximo año un


nuevo modelo de celular de última generación. Al estudiar la situación económica del
próximo año se contemplan tres posibilidades: inflación, estabilidad o crecimiento,

UPCPC
MA44 Estadística 79

estimando dichas alternativas con las siguientes probabilidades: 0,55; 0,35 y 0,10
respectivamente. La probabilidad de importar el nuevo modelo de celular es 0,25 si existiera
inflación, 0,40 si existiera estabilidad y 0,65 si existiera crecimiento.

Presente el diagrama del árbol y defina los eventos

a. ¿Cuál es la probabilidad de importar el nuevo modelo de celular para el próximo año?

b. Asumiendo que la empresa decidió importar el nuevo modelo de celular, ¿cuál es la


probabilidad que existiera inflación en la economía?

2. Consideremos que tres máquinas Alpha, Beta y Gamma producen respectivamente el 50%,
el 30% y el 20% del número total de artículos de una fábrica. Si la proporción de artículos

UPCPC
MA44 Estadística 80

defectuosos que produce cada una de estas máquinas es 0,03 0,04 y 0,05 respectivamente y
se selecciona un artículo aleatoriamente:

Presente el diagrama del árbol y defina los eventos

a. Calcule la probabilidad de que el artículo sea defectuoso.

P(D)= 0.5x0.03 + 0.3x0.04 + 0.2+0.05 = 0.037

b. Calcule la probabilidad de que el artículo seleccionado al azar haya sido producido por la
máquina Alpha si se sabe que es defectuoso.

P(A/D) = P(A n D) / P(D)= 0.03x0.5 / 0.037 = 0.405

c. Calcule la probabilidad de que el artículo seleccionado al azar haya sido producido por la
máquina Alpha o la máquina Beta, si se sabe que es defectuoso.

P((AUB)/D) =
P(A/D) = 0.405
P(B/D) =
P(AnB/D) = 0 (mutuamente excluyente)

d. Si se seleccionan cinco artículos, ¿cuál es la probabilidad que sólo dos sean defectuosos?
0.05

Ejercicios propuestos

1. Una empresa vende tres tipos de maquinaria pesada para la industria textil A, B y C. El 70%
de las máquinas son del tipo A, el 20% del tipo B y el 10% son del tipo C. Las máquinas A
tienen una probabilidad de 0,10 de producir una pieza defectuosa a lo largo de un año, las
máquinas B tienen una probabilidad de 0,30 y las máquinas C tienen una probabilidad 0,60
de producir una de tales piezas defectuosas a lo largo de un año. Una de estas máquinas ha

UPCPC
MA44 Estadística 81

estado funcionando durante un año de prueba y ha producido una pieza defectuosa. ¿De
cuál tipo de máquina es más probable que provenga la pieza defectuosa?

2. Una de las medidas que se consideran para regular el volumen de agua en m3 en las represas,
es abrir las compuertas para que las represas no rebalsen. Las compuertas operan en forma
independiente de acuerdo con dos tipos de sistemas. Estos sistemas operan solo si hay una
trayectoria de dispositivos funcionales de izquierda a derecha. Su funcionamiento es muy
importante por lo que el ingeniero de mantenimiento recomendará utilizar aquel sistema
que presente mayor probabilidad de flujo de funcionamiento continuo.
Sistema 1 Sistema 2

¿Cuál de los dos sistemas deberá elegir para ser instalado en una compuerta? Suponga que
cada dispositivo funciona de manera independiente con una probabilidad de 0,85.

3. Considere el sistema de componentes electrónicos conectados como se muestra en la figura.


Los componentes funcionan de manera independiente uno del otro, y la probabilidad de que
cada componente funcione es 0,90; ¿cuál es la probabilidad de que el sistema electrónico
funcione?

4. Se tiene un sistema antiguo compuesto de varios componentes que funcionan en forma


independiente y la probabilidad de falla de cada componente es 0,4. Para que el sistema
funcione basta que funcione al menos uno de los componentes, ¿cuántos componentes debe
tener el sistema para tener una probabilidad de 0,98 de que el sistema funcione?

5. Electronic Systems Company que brinda soporte especializado en la instalación de redes con
Tecnología LAN o WAN en diferentes empresas, sabe que el 15% de las empresas prefieren
como medio físico de transporte los cables de cobre de par trenzado, el 35% prefiere los
cables coaxiales, el 40% fibras ópticas y 10% el aire. Además, si la empresa elige los cables de
cobre de par trenzado como medio físico, la probabilidad que elija la Tecnología WAN es
0,62. Las empresas que eligen cables coaxiales tienen una probabilidad de 0,45 de elegir la
Tecnología LAN; las empresas que eligen la fibra óptica tienen una probabilidad de 0,55 de
elegir la Tecnología WAN y las empresas que eligen el aire como medio físico de transporte
tienen una probabilidad de 0,5 de elegir la Tecnología LAN.
a. Calcule la probabilidad que una empresa elija para su Red la Tecnología LAN.

UPCPC
MA44 Estadística 82

b. Si se selecciona al azar una empresa que utiliza Tecnología WAN, ¿cuál es la probabilidad
que utilice como medio físico de transporte cables de cobre de par trenzado?

6. Si la probabilidad de que cada llave esté cerrada dejando pasar corriente es p=0,6 y las llaves
se cierran y se abren en forma independiente, calcular la probabilidad de que pase corriente
de I hacia O en el siguiente circuito:

7. Una empresa produce piezas en tres máquinas, M1, M2 y M3, que pueden presentar
desajustes de manera independiente, con probabilidades 0,02; 0,01 y 0,06 respectivamente.
Al inicio de un día de operación se realiza una prueba en cada máquina. Si se observan
desajustes en una máquina, ésta debe pasar el día en revisión técnica. Para cumplir el nivel
mínimo de producción diaria se necesita que al menos dos de las tres máquinas funcionen.

a. ¿Cuál es la probabilidad de que alguna de las tres máquinas deba pasar el día en revisión
técnica?

A = alguna de las tres máquinas se desajusta

P (A) = 0.02*0.99*0.94 + 0.98*0.01*0.94 + 0.98*0.99*0.06 = 0.086

b. ¿Cuál es la probabilidad de cumplir con el nivel mínimo de producción diaria?

C: Cumplir con el nivel mínimo de producción

P(C) = P(al menos dos no se desajusten)=0.98*0.99*0.06 + 0.98*0.01*0.94 + 0.02*0.99*0.94


+ 0.98*0.99*0.94 = 0.9980

2.9 Variable aleatoria

Sea Ω un espacio muestral. Una variable aleatoria es una función X, que transforma cada
resultado w del espacio muestral en un número real X(w).

El rango de la variable aleatoria X es el conjunto RX de todos sus posibles valores.

UPCPC
MA44 Estadística 83

Ejemplo

Al lanzar dos monedas para registrar los posibles resultados se obtiene el espacio muestral
siguiente:  = {cc, cs, sc, ss}

Si ahora definimos la variable aleatoria X como número de caras que se obtiene, entonces a
cada resultado de, es posible asignarle un número real de la siguiente manera:
S
R
▪ cc, se le asigna el número real 2 •CC
▪ cs, se le asigna el número real 1 •CS 2
▪ sc, se le asigna el número real 1 •SC
1
▪ ss, se le asigna el número real 0 •SS
0

Clasificación de variables aleatorias

Discreta: Si su rango es un conjunto finito o infinito numerable.

Ejemplos
a. Número de circuitos electrónicos producidos por una empresa que cumplen con las
especificaciones técnicas.
b. Número de llamadas que recibe una central telefónica.

Continua: Si su rango es un conjunto infinito no numerable.

Ejemplos

a. Resistencia a la ruptura de un material plástico (onzas por pulgada cuadrada).


b. Resistencia transversal de los ladrillos fabricados por una empresa (MN/m2).

Variable aleatoria discreta

Sea X una variable aleatoria discreta. La función de probabilidad de una variable aleatoria
discreta representa la probabilidad de que la variable aleatoria tome un valor genérico igual
a x y se denotará de la siguiente manera: f (x) = P( X = x)

UPCPC
MA44 Estadística 84

La función de probabilidad de X debe cumplir las siguientes condiciones:

• f ( x)  0
•  f ( x) = 1
Rango X

Ejercicio

El ingeniero de producción de la empresa Tecnotronics S.A. ha determinado que la distribución


de probabilidades del número de artículos defectuosos por lote es la siguiente:

x 0 1 2 3 4
f(x) 0.25 a 0.10 0.25 0.25

a. Encuentre el valor de la constante “a” para que la distribución sea de probabilidad.


b. Calcule la probabilidad de encontrar menos de 2 artículos defectuosos por lote.
c. Si el lote tiene 2 o más artículos defectuosos, es considerado “malo” ¿cuál es la probabilidad
que el lote sea malo?
d. Si el número de artículos defectuosos por lote es al menos 1, calcule la probabilidad de que
el número de artículos defectuosos sea menor que 3.

Solución

a. Para hallar el valor de la constante “a”, usaremos la siguiente condición:  f ( x) = 1


Rango X

0,25 + a + 0,10 + 0,25 + 0,25 = 1 → a = 0,15

b. P (X < 2) = P (X = 0) + P (X = 1) = 0,25 + 0,15 = 0,40

c. P (Lote sea malo) = P (X ≥ 2) = 1 – P (X < 2) = 1 – 0,40 = 0,60

𝑷(𝒙=𝟏)+𝑷(𝒙=𝟐) 𝟎,𝟏𝟓+𝟎,𝟏𝟎
d. P (X < 3 / X ≥ 1) = = = 0,3333
𝟏−𝑷(𝒙=𝟎) 𝟏−𝟎,𝟐𝟓

Ejercicio

El departamento de control de calidad de una empresa selecciona al azar diariamente tres


bombillas de un lote que contiene 20 bombillas, para decidir si acepta el lote y los pasa al
departamento de producción o rechaza el lote y los devuelve al proveedor.

a. Construya la distribución de probabilidad del número de bombillas defectuosas que se


encuentra en la muestra, si el muestreo es sin reposición y bajo la suposición que el lote
contiene 2 bombillas defectuosas.

UPCPC
MA44 Estadística 85

X: Numero de bombillas defectuosas encontradas en la muestra.


Valores del rango de la variable, Rx = {0,1,2}

D = bombilla defectuosa P(D) =


C
D = bombilla no defectuosa P(B) =
P(X=0) = 2C0 x 18C3 / 20C3 = 0.7158
P(X=1) = 2C1 x 18C2 / 20C3 = 0.2684
P(X=2) = 2C2 x 18 C1 / 20 C3 = 0.0158

Finalmente, colocamos los resultados en la tabla de función de probabilidades.

x 0 1 2
f(x) 0.7158 0.2684 0.0158

- P(X=0) → 2C0 x 18C3 / 20C3 = 0.7158

- P(X=1) → 2C1 x 18C2 / 20C3 = 0.2684

- P(X=2) → 2C2 x 18 C1 / 20 C3 = 0.0158

b. Si la regla de decisión es: Rechazar el lote si en la muestra se encuentra más de un artículo


defectuoso. ¿Cuál es la probabilidad de Rechazar un lote?

c. En relación con la regla planteada en (b), si el lote es aceptado, ¿cuál es la probabilidad que
la muestra contenga un defectuoso?

Esperado de una variable aleatoria discreta

UPCPC
MA44 Estadística 86

Sea X una variable aleatoria discreta con función de probabilidad f(x). Entonces el valor
esperado o medio de X es:

 = E( X ) =  xf ( x)
Rango x

Varianza de una variable aleatoria

Sea X una variable discreta con función de probabilidad f(x). Entonces, la varianza de X es:

𝜎 2 = V(X) = E[X - 𝜇]2 = E(X2) - 𝜇 2

Formula abreviada para el cálculo de la varianza:

V(X) = E(X2) – [E(X)]2 dónde: E(X2) = ∑ 𝑋 2 𝑓(𝑋)

La desviación estándar de X es la raíz cuadrada positiva de la varianza de X

 = 2

Ejemplo

1. El número de fallas de energía eléctrica que afectan a cierta región en cualquier año dado
se considera una variable aleatoria, que tiene la siguiente función de probabilidad:

x 0 1 2 3
P(X = x) 0,38 0,24 k 0,08

a. Calcule e interprete el valor esperado de X.


b. Calcule la desviación estándar y el coeficiente de variación de X.

Solución

En primer lugar, hallaremos el valor de k para que la distribución sea función de probabilidad:

0,38 + 0,24 + k + 0,08 = 1 → k = 0,3

a. E(X) = 0*0,38 + 1*0,24 + 2*0,3 + 3*0,08 = 1,08

Si el experimento se repitiera muchas veces, en promedio el número de fallas de energía


eléctrica que afectan a cierta región en cualquier año dado sería de 1.08.

b. Primero calcularemos la varianza y usaremos la formula abreviada: V(X) = E(X2) – [E(X)]2

UPCPC
MA44 Estadística 87

E(X2) = 02*0,38 + 12*0,24 + 22*0,3 + 32*0,08 = 2,16


V(X) = 2,16 – [1,08]2 = 0,9936
Finalmente, la DS(X) = ………………………….. y el CV(X)= ……………………….

Ejemplo

Un ingeniero civil del departamento de obras muestra la distribución de probabilidad de la


variable aleatoria X= Número de habitaciones a construir en edificios residenciales.

x 4 5 7 8 9
f(x) 0.20 0.25 0.10 0.15 0.30

a. Si la gerencia del departamento de obras le impone que construya menos de ocho


habitaciones y suponiendo que se cumple con este requerimiento, ¿cuál es la probabilidad
que construya por lo menos cinco habitaciones?

P (X ≥ 5 / X < 8) = 0.35/0.55= 0.6364

b. ¿Cuánto esperaría pagar un cliente por una vivienda?

E (X) = 6,65 → Un cliente esperaría pagar por una vivienda 98 090 soles.
Ejercicios

1. Según el departamento de control de calidad de la empresa CONSTRUYE S.A., el número de


fallas superficiales en la elaboración de cables de luz en su presentación de rollos de 20
metros corresponde a una variable aleatoria X, la misma que presenta la siguiente función
de probabilidad:

Número de fallas superficiales 0 1 2 3 4


Probabilidad a 0.27 0.16 b 0.01

Si el valor esperado de X es 1,71 fallas por cable, ¿cuál es la probabilidad de que un cable
presente a lo más 2 fallas?

a+b+0.27+0.16+0.01=1

E(X)= (0*a) + (1*0.27) + (2*0.16) + (3*b) + (4*0.01) = 1.71

a= 0.2
b= 0.36

P(X<=2) = 0.2+0.27+0.16= 0.63

UPCPC
MA44 Estadística 88

2. Según el departamento de control de calidad de una empresa fabricante de tornillos, el


número de fallas superficiales en los tornillos corresponde a una variable aleatoria X con E
(X) = 0.88 por tornillo. Además, se sabe que la función de probabilidad está dada por:

x 0 1 2 3 4
f(x) a 0.37 0.16 b 0.01

a. ¿Cuál es la probabilidad de que un tornillo presente al menos 2 fallas?


b. Calcule la varianza y el coeficiente de variación de X.

3. Una librería necesita hacer el pedido semanal de una revista especializada de ingeniería.
Por registros históricos, se sabe que las frecuencias relativas de vender una cantidad de
ejemplares es la siguiente:

Demanda de ejemplares 1 2 3 4 5 6
Frecuencia relativa 1/15 2/15 3/15 4/15 3/15 2/15
Calcule la media y varianza de la demanda de ejemplares.

UPCPC
MA44 Estadística 89

2.10 Distribuciones discretas especiales


Distribución binomial

El experimento consiste en n pruebas idénticas de Bernoulli.


Cada prueba tiene únicamente dos resultados: éxito o fracaso. P(éxito)=p y P(fracaso)=1-p
se mantiene constante a lo largo de todas las pruebas.
Las pruebas son independientes.
La probabilidad del evento considerado como “éxito” es constante en cada prueba y se
denota por p.
La variable aleatoria binomial se define como:

Número de éxitos que ocurren en los n ensayos o pruebas

La función de probabilidad de X es:

f ( x ) = P( X = x) = Cxn p x (1 − p )
n− x
, x = 0, 1, 2, ... , n

Donde:

n: Numero de ensayos o pruebas


p: Probabilidad de éxito en cada
ensayo
1 – p: Probabilidad de fracaso

Notación: Si la variable aleatoria X sigue una distribución binomial con parámetros n y p se


denota: X ~B (n, p)

Media  = E(X) = np
Varianza 2 = Var(X) = np(1-p)
(Desviación estándar) DS(X)= Raiz de o2

Ejemplo

El supervisor de una obra ha determinado que un proveedor entrega los pedidos a tiempo
alrededor del 94% de las veces. Para su última obra, el supervisor seleccionó una muestra de 12
pedidos.
a. Calcule la probabilidad de que el proveedor entregue 11 pedidos a tiempo.
b. Calcule el valor esperado del número de pedidos entregados a tiempo.

Solución:
X: Número de pedidos entregados a tiempo en una muestra de 12 pedidos
X ~ B (n = 12, p = 0,94)

UPCPC
MA44 Estadística 90

a. P (X = 11) = 𝑪𝟏𝟐
𝟏𝟏 ∗ 𝟎. 𝟗𝟒
𝟏𝟏
∗ (𝟏 − 𝟎. 𝟗𝟒)𝟏 = ……………………….
b. E(X) = n*p = ………………………….

Ejercicio

En un proceso de fabricación se produce unidades precoladas con un 1% de unidades


defectuosas. Todos los días se someten a prueba 10 unidades seleccionadas al azar de la
producción diaria. Si existen fallas en una o más de estas unidades se detiene el proceso de
producción.

La variable aleatoria X se define:


X: Número de unidades precoladas defectuosas en una muestra de diez pedidos.
X ~ B (n=10, p=0.01)

a. ¿Cuál es la probabilidad de encontrar dos unidades defectuosas?


f ( x ) = P( X = x) = Cxn p x (1 − p )
n− x
, x = 0, 1, 2, ... , n
P(X=2) = 10C2 x 0.012 (1- 0.01)8= 4.152 x 10-3

b. ¿Cuál es la probabilidad de encontrar al menos dos unidades defectuosas?

P(X>=2) = 1-P(X<2) = 1- [P(X=0) + P(X=1)] = 0.00427

c. ¿Cuál es la probabilidad de detener el proceso?

P(X>=1) = 1- P(X=0) = 0.0956

d. Calcule el valor esperado y el coeficiente de variabilidad del número de unidades no


defectuosas.
p= 0.99
n=10

E(X)= np= 10(0.99) = 9.9 unidades

CV(X) = DS(X)/E(X) x 100% = 3.18%

Distribución Poisson

El experimento consiste en realizar el conteo del número X de veces que ocurre un evento
en particular durante una unidad de tiempo, área, volumen, peso, distancia o cualquier otra
unidad de medida dada.
La probabilidad de que un evento ocurra en una unidad dada de tiempo, área, etc.; es la
misma para todas las unidades.

UPCPC
MA44 Estadística 91

El número de eventos que ocurren en una unidad de tiempo, área, volumen es


independiente del número de los que ocurren en otras unidades.
La variable aleatoria Poisson se define como:

Número de veces que ocurre un evento durante un intervalo definido

La función de probabilidad de X es:

e − x
f ( x) = P( X = x ) = x = 0,1, 2, 3,...
x!
Donde:

e: Base del sistema de logaritmos neperianos


 : Media de la cantidad de veces (éxitos) que se presenta un evento en un intervalo
particular

Notación:
Si la variable aleatoria X sigue una distribución Poisson con parámetro  se denota: X ~ P (
)

Media 𝜇 = 𝐸(𝑋) = 𝜆
Varianza  2 = V (X ) = 

Ejemplo

En la inspección del pavimento y asfalto de una carretera recién construida se ha detectado que
hay, en promedio 1,25 baches o fisuras cada cuatro kilómetros. Asumiendo una distribución de
Poisson, determine:

a. La probabilidad de que en el siguiente kilómetro se encuentre dos baches o fisuras.


b. La probabilidad de que en los siguientes dos kilómetros se encuentre a lo más tres baches o
fisuras.
c. El costo de reparación de estos defectos es de $35 por cada bache o fisura detectado. ¿Cuál
será el costo esperado al inspeccionar 80 km de esta carretera?

Solución

a. X: Número de baches o fisuras cada kilómetro


X ~ Poisson (λ= 0,3125)

𝑒 −0.3125 ∗0.31252
P(X=2) = = 0,03572
2!

UPCPC
MA44 Estadística 92

b. X: Número de baches o fisuras cada dos kilómetro


X ~ Poisson (λ= 0.625)
P (X ≤ 3) = P(X=0) + P(X=1) + P(X=2) + P(X=3) = 0,9961

c. X: Número de baches o fisuras en 80 kilómetros


X ~ Poisson (λ= 25)
Costo = 35*X → E (Costo) = 35*25 = $ 875

Ejercicio

1. Con la finalidad de diseñar un nuevo sistema de control de tráfico, un ingeniero recoge


información sobre el número de automóviles que llegan a una intersección. Por histórico
se sabe que en promedio llegan cuatro autos a la intersección cada minuto según un
proceso de Poisson.

La variable aleatoria X se define:


X~

UPCPC
MA44 Estadística 93

a. ¿Qué probabilidad hay de que en 30 segundos lleguen tres autos?

b. ¿Qué probabilidad hay de que entre las 5:25 pm y 5:28 pm lleguen más de dos autos?

c. Si en un minuto llegaron más de tres autos, ¿cuál es la probabilidad que como máximo sean
cinco los autos que llegaron en ese minuto?

2. Cierto tipo de azulejo puede tener un número X de puntos defectuosos con media de 3
puntos defectuosos por azulejo. Calcule la probabilidad de que se presenten 5 defectos en
un azulejo elegido al azar.

Ejercicios

1. Un cierto sistema mecánico contiene componentes y se han seleccionado al azar 10.


Suponga que la probabilidad de que cualquier componente individual falle es de 0,07 y que
los componentes fallan independientes unos de otros.
a) ¿Cuál es la probabilidad de que falle al menos uno de los componentes?
b) ¿Cuál es la probabilidad de que fallen exactamente 2 componentes?

UPCPC
MA44 Estadística 94

c) ¿Cuál es la probabilidad de que fallen entre 2 y 5 componentes?


d) Obtenga el E(X) y V(X)

2. Debido al calentamiento global, es muy común la presencia de caracoles en las represas


debido a sus aguas estancadas, lo cual hace que se produzcan enfermedades nocivas para
el hombre y su entorno. El número de caracoles presentes en las aguas estancadas sigue
una distribución Poisson con un promedio de 16 caracoles por 5m3 de agua. La OMS
establece que si la probabilidad de que haya más de un caracol presente en 1m3 de agua
estancada es mayor a 0.75 se deberá comprar un filtro especial como norma sanitaria. ¿Se
llegará a realizar la compra de dicho filtro?

3. En un almacén de aparatos electrónicos se almacenan 10 tostadoras para su distribución,


cuatro de la marca A y el resto de las marcas menos conocidas. Si un empleado selecciona
al azar cinco tostadoras para llevarlas por encargo a una tienda para su comercialización,
calcular la probabilidad de que en las cinco tostadoras seleccionadas:
a) Existan exactamente dos de la marca A.
b) A lo sumo haya una tostadora de las marcas menos conocidas.

4. El número de averías semanales de una cierta máquina de una fábrica es una variable
aleatoria con distribución de Poisson con media 0,3.
a) ¿Cuál es la probabilidad de que la máquina tenga a lo más dos averías en una semana?
b) Si se tienen 5 de estas máquinas. ¿Cuál es la probabilidad de que al menos 2 de estas no
tengan averías en dos semanas

5. En un estudio del tránsito en cierta intersección, se determinó que el número de


automóviles que llegan a un ovalo tiene distribución de Poisson con media igual a 5
automóviles por segundo.
a) ¿Cuál es la probabilidad de que en un segundo lleguen al ovalo más de dos automóviles?
b) Calcule la probabilidad de que en los siguientes 10 segundos lleguen al ovalo 40
automóviles.
c) Suponga que el 90% de vehículos que llegan diariamente al ovalo mencionado son de
transporte privado. Para los siguientes 5 días, calcule la probabilidad de que lleguen al
ovalo por lo menos tres vehículos de transporte privado.

2.11 Variables aleatorias continuas


Función de densidad de una variable continua f(x)

Se denomina función de densidad f(x) de una variable aleatoria continua X a la función f(x)
integrable que satisface:

UPCPC
MA44 Estadística 95

f(x)
f ( x)  0

∫−∞ 𝑓(𝑥)𝑑𝑥 = 1
b
P(a  X  b) =  f ( x)dx
a

a b
VC Discreta VC Continua

Es f(x) → función de n probabilidad Es f(x) → Función de densidad

X → Variable X → Variable

Rango: x = 0,1,2,3,4 Rango: 0<= x <=4 (en intervalo)

Gráfica: bastones o líneas Condiciones:

Condiciones: - f(x) >= 0 f ( x)  0



- Suma de P(X=x) = 1 ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1
P(X>3) = P(X>=3) → SÍ
P(X>3) = P(X>=3) → NO
P(X=3) → NO (en un punto no puedo calcular el
P(X=3) → Sí área)

Ejemplo

Sea K una constante y consideremos la función de densidad de la vida útil, en años, de cierto
tipo de computadora:

kx 0  x  2
f ( x) = 
0 c.c.

a. Obtenga el valor de k, para que f(x) sea función de densidad.


b. Calcule la P (0,5 < X < 1,8)
c. Calcule la P (X > 1)

Solución

a. Para que f(x) sea función de densidad debe de satisfacer la siguiente condición:

2 2
∫0 𝑘𝑥𝑑𝑥 = 1 K ∫0 𝑥𝑑𝑥 = 1 k (2) = 1 k=½

UPCPC
MA44 Estadística 96

1
 x 0 x2
f ( x) =  2

0 c.c.

1.8 1
b. P (0,5 < X < 1,8) = ∫0.5 2 𝑥𝑑𝑥 = 0,7475

21
c. P (X > 1) = ∫1 2 𝑥𝑑𝑥 = 0,75

Ejecicio

El peso, en onzas, de un artículo de gasfitería usado en hogares y oficinas es una variable


aleatoria X con función densidad:

𝑓(𝑥) = 𝑘(𝑥 − 8) 8 ≤ 𝑥 ≤ 10
X= el peso, en onzas.

a. Obtenga el valor de k, para que f(x) sea una función de densidad.

b. ¿Cuál es la probabilidad que un artículo pese más de 9 onzas?

c. Los artículos con un peso menor a 8,5 onzas son separados. ¿Cuál es la probabilidad que un
artículo, seleccionado al azar, sea separado?

Función de distribución acumulada: F(X)

La función de distribución acumulativa F(x) para una variable aleatoria continua X se define:
x
F ( x) = P( X  x) =  f (t ) dt
−

Si F(x) es la función de distribución acumulativa para una variable aleatoria continua X,


entonces la función de densidad f(x) para X es:

dF ( x )
f ( x) =
dx

Propiedad de la Función de distribución acumulada

UPCPC
MA44 Estadística 97

𝐏(𝐱 𝟏 ≤ 𝐗 ≤ 𝐱 𝟐 ) = 𝐅(𝐱 𝟐 ) − 𝐅(𝐱 𝟏 )

Ejemplo

El tiempo, en minutos, que un tren se retrasa es una variable aleatoria continua X con la
siguiente función de densidad:

 3
 (25 − x 2 ) 0 x5
f ( x ) =  250

 0 c.c.

a. Determine la función acumulada F(X)


b. Calcule P (X > 2) haciendo uso de la función acumulada.
c. Calcule P (1.5 < X < 3.5) haciendo uso de la función acumulada.

Solución

a. Para hallar la función acumulada F(X) seguiremos los siguientes pasos:

▪ Si X ≤ 0  F(X) = 0
𝒙 𝟑 𝟕𝟓𝒙− 𝒙𝟑
▪ Si 0 < X < 5  F(X) = ∫𝟎 (𝟐𝟓 − 𝒕𝟐 )𝒅𝒕 =
𝟐𝟓𝟎 𝟐𝟓𝟎
▪ Si X ≥ 5  F(X) = 1

Finalmente,

0 x ≤ 0
75𝑥− 𝑥 3
F(x) = { 0 < x < 5
250
1 x ≥ 5

𝟕𝟓(𝟐)−𝟐𝟑
b. P (X > 2) = 1 – P(X ≤ 2) = 1 – F(2) = 1 – [ ] = 𝟎, 𝟒𝟑𝟐
𝟐𝟓𝟎

𝟕𝟓(𝟑.𝟓)−𝟑.𝟓𝟑 𝟕𝟓(𝟏.𝟓)−𝟏.𝟓𝟑
c. Calcule P (1,5 < X < 3,5) = F (3.5) – F(1.5) = − = 0,442
𝟐𝟓𝟎 𝟐𝟓𝟎

Ejercicio

UPCPC
MA44 Estadística 98

1. Los sondeos de mercado realizados por un fabricante sobre la demanda de un producto


indican que la demanda proyectada debe considerarse una variable aleatoria X con valores
entre 0 y 25 toneladas. La función de densidad de X está dada por:
2
3x
f ( x) = 3
0  x  25
25

a. Construir la función de distribución acumulada de X.

Escritura de una función acumulada

b. ¿Cuál es la probabilidad de tener una demanda entre 10 y 20 toneladas?


→El 44,8 % de los productos tienen una
demanda entre 10 y 20 toneladas.
Función acumulada
c. Calcule la mediana e interprete: P50 = Q2= D5

Xmáx= ¿?
50%= 0.5 50%= 0.5

Me= ¿?


P (X<= X máx.) = 0.5
F (X máx.) = 0.5

2. SAP Ingeniería, es una empresa que desarrolla soluciones específicas y busca ofrecer
servicios de telecomunicaciones, independientemente del tamaño y desempeño del sector
o actividad empresarial. De estudios anteriores se conoce que el tiempo de atención de un
servicio, en minutos, para cada tamaño de empresa, se tiene la función de densidad y la
función de distribución acumulada; respectivamente.

UPCPC
MA44 Estadística 99

Pequeña empresa Mediana empresa


0 𝑥<0
(𝟖𝟎 − 𝒙) 90 𝑥2
𝒇(𝒙) = ; 𝟎 < 𝒙 < 𝟏𝟎𝟎 𝐹(𝑥) = { 𝑥− 0 ≤ 𝑥 < 120
𝟑𝟎𝟎𝟎 3600 7200
1 𝑥 ≥ 120
P(X<55) = 0,9625 P(X<55) = F (55)= 0,9549

El jefe de producto de telecomunicaciones desea implementar una reingeniería, por lo cual


necesita, para cada tamaño de empresa, determinar la probabilidad de que la atención de un
servicio sea menor a 55 minutos.

Esperado de una variable aleatoria continúa

Sea X una variable aleatoria continua con función de densidad f(x), entonces el valor esperado
de X es la siguiente:


µ= E ( X ) =  xf ( x)dx
−

Varianza de una variable aleatoria continua

Sea X una variable aleatoria continua con función de densidad f(x). Entonces, la varianza de
X es
𝜎 2 = V(X) = E [X - 𝜇]2 = E(X2) - 𝜇 2

+
Dónde: E(X2) = ∫− 𝑥 2 𝑓 (𝑥 )𝑑𝑥

La desviación estándar de X es la raíz cuadrada positiva de la varianza

 = 2
𝜎
El coeficiente de variabilidad es: 𝐶𝑉 = µ 𝑥100%

Ejemplo

El tiempo de anticipación (-) o retraso (+) en minutos, de la llegada de un tren sobre su tiempo
establecido, es una variable aleatoria continua X con la siguiente función de densidad:

UPCPC
MA44 Estadística 100

 3
 (25 − x 2 ) − 5  x  5
f ( x) =  500

 0 c.c.

a. Calcule e interprete el valor esperado.

+𝟓 𝟑 𝟑 𝟐𝟓𝟐 𝟓𝟒 𝟐𝟓𝟐 𝟓𝟒
E(X) = ∫−𝟓 (𝟐𝟓 − 𝒙𝟐 )𝒙𝒅𝒙 = [ − − + ]=0
𝟓𝟎𝟎 𝟓𝟎𝟎 𝟐 𝟒 𝟐 𝟒

El tiempo promedio de anticipación o retraso que tiene el tren sobre su hora establecida es
0 minutos, es decir llega en promedio puntual.

b. Los supervisores de la estación ferroviaria han notado que últimamente los trenes no están
llegando en su hora establecida, para lo cual han fijado como norma que un tren puede llegar
en a lo más ± 𝟎, 𝟓 𝑺, siendo S la desviación estándar. ¿Qué porcentaje de trenes cumplen la
norma fijada?

+𝟓 𝟑 𝟑 𝟓𝟑 𝟓𝟓 −𝟓𝟑 −𝟓𝟓
E(X2) = ∫−𝟓 (𝟐𝟓 − 𝒙𝟐 )𝒙𝟐 𝒅𝒙 = [𝟐𝟓 ∗ − − 𝟐𝟓 ∗ + ]=5
𝟓𝟎𝟎 𝟓𝟎𝟎 𝟑 𝟓 𝟑 𝟓

V(X) = 5 – (0)2 = 5

S = √𝟓 = 2,236068
P (-0,5S ≤ X ≤ 0,5S) = P (-1,118 ≤ X ≤1.118) = 0,32981

El 32,981% de los trenes cumplen la norma fijada.

c. Calcule la probabilidad de que el tren llegue retrasado a lo más 2 minutos.

d. ¿Cuál es la probabilidad de que el tiempo de llegada de un tren difiera de su hora establecida


a lo más en un minuto?

UPCPC
MA44 Estadística 101

Ejercicios

1. El peso, en onzas, de un artículo de gasfitería usado en hogares y oficinas es una variable


aleatoria X con función densidad:

𝑓(𝑥) = 𝑘(𝑥 − 8) 8 ≤ 𝑥 ≤ 10
K → 0,5 (del ejercicio anterior.)

a. Calcule el peso máximo que debe tener un artículo de manera que el 25% de los artículos
tengan pesos menores o iguales a dicho peso.
P(25)=?
P(X< x máx.) = 0,25

b. Calcule el valor esperado de la variable en estudio.

10
µ= 𝐸(𝑋) = ∫8 𝑥. 0,5(𝑥 − 8)𝑑𝑥= 9,33 onzas

Calcule la variación relativa. (CV)

10
µ= 𝐸(𝑋) = ∫8 𝒙. 0,5(𝑥 − 8)𝑑𝑥= 9,33 onzas

10
𝜎 2 = V(X) = E(X2) – 𝜇 2 = ∫8 𝑥 2 . 0,5(𝑥 − 8)𝑑𝑥 − µ2 = 87,33 − (9,33)2 = 0,2811
𝜎 = 0,5302
𝟎, 𝟓𝟑𝟎𝟐
𝑪𝑽 = × 𝟏𝟎𝟎% = 𝟓, 𝟔𝟖%
𝟗, 𝟑𝟑
2. Las utilidades netas, en miles de soles, de los propietarios de stands en una galería comercial
es una variable aleatoria con la siguiente función de densidad:

𝑥
𝑓(𝑥) = {8 0 < 𝑥 ≤ 4
0 𝑜𝑡𝑟𝑜𝑐𝑎𝑠𝑜
X= Utilidades netas en miles de soles
Elemento: Propietarios
a. ¿Estaría usted en condiciones de afirmar que más de la mitad de los propietarios tiene
utilidades superiores al promedio? Justifique.

4 𝑥
𝐸(𝑋) = ∫0 𝑥 𝑑𝑥 = 2,67
8

P(X>E(X))= P(X>2,67)= 0.554 → 55,4% > 50% … Sí

UPCPC
MA44 Estadística 102

b. Calcule la variación relativa de las utilidades.

3. Un estudio realizado por un grupo de ingenieros civiles determinó, que la resistencia a la


compresión en probetas de concreto con materiales propios de una región (en miles de psi),
está determinada por la siguiente función de densidad de probabilidad:

𝟑𝒙𝟐
, 𝟎<𝒙<𝟐
𝒇(𝒙) = { 𝟐𝟎
𝒙
, 𝟐≤𝒙≤𝟒
𝟏𝟎

a. Para un proyecto en particular se requiere que la resistencia a la compresión del concreto


sea de por lo menos 3500 psi, ¿qué tan probable cumpla con el requerimiento?
b. Se desea conocer la resistencia mínima del 15% de los bloques de concreto que tienen
mayores resistencias a la compresión

4. El gerente de la empresa le informa al departamento de Control de Calidad que uno de los


principales clientes de la empresa ha exigido que las bombillas LED tengan como mínimo un
tiempo de encendido continuo de 2100 horas. La distribución de densidad del tiempo de
encendido continúo (en miles de horas) que obtuvo la empresa es la siguiente:

1
𝑓(𝑥) = {6 (17 − 𝑥) 1,8 ≤ 𝑥 ≤ 2,2
0 𝑐𝑐

a. ¿Cuál es la probabilidad de que el departamento de Control de Calidad pueda cumplir con la


exigencia del cliente?
b. ¿Cuál es la probabilidad de que el tiempo de encendido sea superior a 2000 horas?

2.12 Principales distribuciones de variables aleatorias continuas

Distribución exponencial

Función de densidad: Una variable aleatoria X es exponencial con parámetro   0 , si su


función de densidad es:
 1 − 1 x
 e x0
f ( x) =  β
 0
 otro caso

UPCPC
MA44 Estadística 103

Notación: Si X sigue una distribución exponencial con parámetro 1/ se denota por: X ~ Exp
( )
Grafica de la Distribución Exponencial

1,0

0,8

0,6

Density
0,4

0,2

0,0
0 1 2 3 4 5
X

Media: 𝜇 = 𝐸(𝑋) = 𝛽
Varianza: 𝜎 2 = 𝑉(𝑋) = 𝛽2

Función de distribución acumulada:

𝒙
F(x) = P(X ≤x) = ∫−∞ 𝒇(𝒙) 𝒅𝒙

F(x) = P(X ≤x) = 𝟏 − 𝒆−𝒙/𝜷 , x ≥ 0

Características:
▪ La variable puede tomar valores de 0 a +, no toma valores negativos.
▪ La gráfica es descendente con sesgo a la derecha.
▪ Existe una curva para cada valor de .

La distribución exponencial se usa para describir la vida útil de un dispositivo o tiempo de


funcionamiento hasta que falle y . es el promedio de la vida útil (vida media) del dispositivo.

Ejemplo

La duración, en miles de millas, que obtienen los dueños de automóviles con cierto tipo de
neumático es una variable aleatoria con la siguiente función de densidad:

 1 − 201 x
 e si x  0
f ( x) =  20
0 si x  0

Determine la probabilidad de que uno de estos neumáticos dure
a. Como máximo10 000 millas
b. entre 16 000 y 24 000 millas
c. al menos 30 000 millas.

UPCPC
MA44 Estadística 104

Ejemplo

El tiempo de vida de un componente tiene una función de densidad de

𝑥
1
f(x)= 𝑒 −500 x > 0
500

a. ¿Cuál es la probabilidad de que un componente dure más de 800 días?


−800
P (X > 800) = 1- P(X ≤ 800) = 1- (1- 𝑒 500 ) =0,2019

b. Calcule el valor de la mediana


−𝑥
P (X ≤ x) = 0,50 → (1- 𝑒 500 ) =0,50
𝑥
- 500 = ln (0,50) → x = 346,57 días

Ejercicio

1. La duración, en minutos, de una conversación telefónica de larga distancia nacional tiene


distribución exponencial con promedio de 8 minutos.

a) ¿Cuál es la probabilidad que una llamada dure entre tres y diez minutos?

b) ¿Cuál es la probabilidad que una llamada dure más de 9 minutos?

c) ¿Cuánto debe durar como mínimo una llamada para estar considerada dentro del 10% de
las de mayor duración?

d) Si la llamada dura más de 5 minutos ¿cuál es la probabilidad de que dure a lo más 8 minutos?

UPCPC
MA44 Estadística 105

2. Suponga que la vida útil, en horas, de cierta marca de foco electrónico, es una variable
aleatoria X cuya función de densidad de probabilidad es:

 − 8000
x
ce x0
f ( x) = 
 0 c.c.

a. Calcule el valor de la constante c para que f(x) sea función de densidad. Si se selecciona
un foco electrónico al azar, calcule la probabilidad de dure más de 10 000 horas.
b. Calcule la probabilidad de que por lo menos dos de ellos duren más de 10 000 horas.

3. La vida, en horas, de un dispositivo electrónico es una variable aleatoria que tiene la siguiente
función de densidad:
1
1 − 50 x
f (x) = e para x  0
50
a. Calcule e interprete la mediana. Si un lote tiene 20 de estos dispositivos, ¿cuántos se
esperaría que duren más que la mediana?
b. Si el dispositivo duró 80 horas, ¿cuál es la probabilidad de que dure 25 horas más?

Distribución normal

Esta distribución se aproxima a las distribuciones de


frecuencias observadas de muchas medidas naturales y
físicas, como es el caso de pesos, alturas, ventas, vida útil de
producción, coeficiente intelectual, etc.

La curva normal tiene forma de campana y es simétrica con


respecto a su media
La media, la mediana y la moda son iguales y se
encuentran en x =  y la desviación estándar es .

Función de densidad: La variable aleatoria X es normal si


su función de densidad se define de la siguiente manera:

1 1 𝑥−𝜇 2
𝑓(𝑥) = 𝑒 −2( 𝜎 ) −∞ <𝑥 <∞
√2𝜋 𝜎
Notación: Si la variable aleatoria tiene distribución normal con parámetros 𝜇 y 𝜎 2 se denota:
X ~ N(, 2)
Media E(X) = 
Varianza Var(X) = 2

UPCPC
MA44 Estadística 106

X : Variable aleatoria de interés.


 : Media de la distribución.
 : Desviación estándar de la distribución.

Distribución normal estándar

La distribución normal estándar es una distribución de una variable aleatoria continua


denotada con la letra Z, que tiene media 0 y desviación estándar 1.
Una variable aleatoria con distribución normal se puede
convertir en una distribución normal estándar si se realiza la
siguiente transformación, llamada de estandarización o de
tipificación.
X −
Z =

Notación: Z ~ N (0,1)

Z debe tener 2 cifras decimales y con redondeo simple.

Gráficas simétricas: ¿Qué las diferencia?

UPCPC
MA44 Estadística 107

Función Acumulada: F (Z) = P (Z ≤ z)


La distribución de la variable Z se encuentra tabulada en las tablas estadísticas

TABLA DE LA DISTRIBUCION NORMAL ESTANDAR

Área bajo la curva normal:  P ( Z  z ) =  


Z -0.09 -0.08 -0.07 -0.06 -0.05 -0.04 -0.03 -0.02 -0.01 -0.00
-3.9 0.000033 0.000034 0.000036 0.000037 0.000039 0.000041 0.000042 0.000044 0.000046 0.000048
-3.8 0.000050 0.000052 0.000054 0.000057 0.000059 0.000062 0.000064 0.000067 0.000069 0.000072
-3.7 0.000075 0.000078 0.000082 0.000085 0.000088 0.000092 0.000096 0.000100 0.000104 0.000108
-3.6 0.000112 0.000117 0.000121 0.000126 0.000131 0.000136 0.000142 0.000147 0.000153 0.000159
-3.5 0.000165 0.000172 0.000178 0.000185 0.000193 0.000200 0.000208 0.000216 0.000224 0.000233
-3.4 0.000242 0.000251 0.000260 0.000270 0.000280 0.000291 0.000302 0.000313 0.000325 0.000337
-3.3 0.000349 0.000362 0.000376 0.000390 0.000404 0.000419 0.000434 0.000450 0.000466 0.000483
-3.2 0.000501 0.000519 0.000538 0.000557 0.000577 0.000598 0.000619 0.000641 0.000664 0.000687
-3.1 0.000711 0.000736 0.000762 0.000789 0.000816 0.000845 0.000874 0.000904 0.000935 0.000968
-3.0 0.001001 0.001035 0.001070 0.001107 0.001144 0.001183 0.001223 0.001264 0.001306 0.001350
-2.9 0.00139 0.00144 0.00149 0.00154 0.00159 0.00164 0.00169 0.00175 0.00181 0.00187
-2.8 0.00193 0.00199 0.00205 0.00212 0.00219 0.00226 0.00233 0.00240 0.00248 0.00256
-2.7 0.00264 0.00272 0.00280 0.00289 0.00298 0.00307 0.00317 0.00326 0.00336 0.00347
-2.6 0.00357 0.00368 0.00379 0.00391 0.00402 0.00415 0.00427 0.00440 0.00453 0.00466
-2.5 0.00480 0.00494 0.00508 0.00523 0.00539 0.00554 0.00570 0.00587 0.00604 0.00621
-2.4 0.00639 0.00657 0.00676 0.00695 0.00714 0.00734 0.00755 0.00776 0.00798 0.00820
-2.3 0.00842 0.00866 0.00889 0.00914 0.00939 0.00964 0.00990 0.01017 0.01044 0.01072
-2.2 0.01101 0.01130 0.01160 0.01191 0.01222 0.01255 0.01287 0.01321 0.01355 0.01390
-2.1 0.01426 0.01463 0.01500 0.01539 0.01578 0.01618 0.01659 0.01700 0.01743 0.01786
-2.0 0.01831 0.01876 0.01923 0.01970 0.02018 0.02068 0.02118 0.02169 0.02222 0.02275
-1.9 0.02330 0.02385 0.02442 0.02500 0.02559 0.02619 0.02680 0.02743 0.02807 0.02872
-1.8 0.02938 0.03005 0.03074 0.03144 0.03216 0.03288 0.03362 0.03438 0.03515 0.03593
-1.7 0.03673 0.03754 0.03836 0.03920 0.04006 0.04093 0.04182 0.04272 0.04363 0.04457
-1.6 0.04551 0.04648 0.04746 0.04846 0.04947 0.05050 0.05155 0.05262 0.05370 0.05480
-1.5 0.05592 0.05705 0.05821 0.05938 0.06057 0.06178 0.06301 0.06426 0.06552 0.06681
-1.4 0.06811 0.06944 0.07078 0.07215 0.07353 0.07493 0.07636 0.07780 0.07927 0.08076
-1.3 0.08226 0.08379 0.08534 0.08691 0.08851 0.09012 0.09176 0.09342 0.09510 0.09680
-1.2 0.09853 0.10027 0.10204 0.10383 0.10565 0.10749 0.10935 0.11123 0.11314 0.11507
-1.1 0.11702 0.11900 0.12100 0.12302 0.12507 0.12714 0.12924 0.13136 0.13350 0.13567
-1.0 0.13786 0.14007 0.14231 0.14457 0.14686 0.14917 0.15151 0.15386 0.15625 0.15866
-0.9 0.16109 0.16354 0.16602 0.16853 0.17106 0.17361 0.17619 0.17879 0.18141 0.18406
-0.8 0.18673 0.18943 0.19215 0.19489 0.19766 0.20045 0.20327 0.20611 0.20897 0.21186
-0.7 0.21476 0.21770 0.22065 0.22363 0.22663 0.22965 0.23270 0.23576 0.23885 0.24196
-0.6 0.24510 0.24825 0.25143 0.25463 0.25785 0.26109 0.26435 0.26763 0.27093 0.27425
-0.5 0.27760 0.28096 0.28434 0.28774 0.29116 0.29460 0.29806 0.30153 0.30503 0.30854
-0.4 0.31207 0.31561 0.31918 0.32276 0.32636 0.32997 0.33360 0.33724 0.34090 0.34458
-0.3 0.34827 0.35197 0.35569 0.35942 0.36317 0.36693 0.37070 0.37448 0.37828 0.38209

UPCPC
MA44 Estadística 108

-0.2 0.38591 0.38974 0.39358 0.39743 0.40129 0.40517 0.40905 0.41294 0.41683 0.42074
-0.1 0.42465 0.42858 0.43251 0.43644 0.44038 0.44433 0.44828 0.45224 0.45620 0.46017
-0.0 0.46414 0.46812 0.47210 0.47608 0.48006 0.48405 0.48803 0.49202 0.49601 0.50000

TABLA DE LA DISTRIBUCION NORMAL ESTANDAR

Área bajo la curva normal:  P ( Z  z ) =  


Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535
0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409
0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173
0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793
0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891
1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298
1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147
1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.91774
1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189
1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408
1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449
1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169
2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520
2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643
2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736
2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807
2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861
3.0 0.998650 0.998694 0.998736 0.998777 0.998817 0.998856 0.998893 0.998930 0.998965 0.998999
3.1 0.999032 0.999065 0.999096 0.999126 0.999155 0.999184 0.999211 0.999238 0.999264 0.999289
3.2 0.999313 0.999336 0.999359 0.999381 0.999402 0.999423 0.999443 0.999462 0.999481 0.999499
3.3 0.999517 0.999534 0.999550 0.999566 0.999581 0.999596 0.999610 0.999624 0.999638 0.999651
3.4 0.999663 0.999675 0.999687 0.999698 0.999709 0.999720 0.999730 0.999740 0.999749 0.999758
3.5 0.999767 0.999776 0.999784 0.999792 0.999800 0.999807 0.999815 0.999822 0.999828 0.999835
3.6 0.999841 0.999847 0.999853 0.999858 0.999864 0.999869 0.999874 0.999879 0.999883 0.999888
3.7 0.999892 0.999896 0.999900 0.999904 0.999908 0.999912 0.999915 0.999918 0.999922 0.999925
3.8 0.999928 0.999931 0.999933 0.999936 0.999938 0.999941 0.999943 0.999946 0.999948 0.999950

UPCPC
MA44 Estadística 109

3.9 0.999952 0.999954 0.999956 0.999958 0.999959 0.999961 0.999963 0.999964 0.999966 0.999967

La lectura en tabla presenta tres situaciones:

Ejercicio

a. ¿Cuál es la probabilidad de que Z sea menor a 1,15?


P(Z<1,15) = 0.87493

b. ¿Cuál es la probabilidad de que Z esté entre –0,13 y 1,05?


P(-0,13<Z<1,05) = 0.85314- 0.44828= 0.40486

c. ¿cuál es la probabilidad de que Z sea mayor que 2,01?


1-P(Z<2,01) =1- 0.97778= 0,0222

UPCPC
MA44 Estadística 110

d. ¿Cuál será el valor máximo de Z tal que el 15,87% de los valores son menores a Z?

Percentil 15,78

0,1587

Z= -1.00

e. ¿Cuál será el valor mínimo de Z tal que el 15,87% de los valores son mayores a Z?

100 – 15,87 = 84,13 %

0,8413

Z= 1.00

Ejercicio

1. Un fabricante de televisores asegura que el tiempo medio de funcionamiento sin fallas de los
aparatos es de 2 años con una desviación estándar de 0,25 años. Si el tiempo de vida de los
aparatos sigue una distribución normal.

a. ¿Cuál es la probabilidad de que el tiempo de buen funcionamiento sea menor que 2,5 años?

b. Determine la probabilidad de que el tiempo de funcionamiento este entre 1 año y 1,75 años

c. El fabricante garantiza que remplazará gratis cualquier aparato de TV cuya duración sin fallas
sea menor que k años. Aproximar k de tal modo que sólo el 1% de los aparatos vendidos
tenga que ser reemplazado.

UPCPC
MA44 Estadística 111

Ejercicio

1. Una máquina llena recipientes con determinado producto. Se sabe que el peso de llenado
de dicho producto tiene distribución normal. Se sabe, de acuerdo con los datos históricos,
que la media es 20,23 y la desviación estándar de pesos de llenado es de 0,6 onzas.

X = Peso de llenado, en onzas


Parámetros: Xdistri N(u= 20.23, ơ2= 0.62

a. ¿Cuál es la probabilidad de que el peso de llenado sea menor que el promedio?

P(X<20.23) = P(Z<0 P(Z<0)= 0.5

0.62

20.23

b. ¿Cuál es la probabilidad de que el peso de llenado sea mayor a 21 onzas?

P(X>21) = 1-(P<1.28)= 1-0.89973=0.10027

UPCPC
MA44 Estadística 112

c. Se dice que la máquina funciona correctamente si el peso de llenado del producto está entre
19,03 y 21,43 ¿Qué tan probable es que la máquina no funcione correctamente?

Funciona correctamente: P(19,03<X<21,43)


P(-2<Z<2) = P(Z<2) – P(Z<-2) = 0.97725-0.02275=0.9545

d. Si se sabe que la máquina funciona correctamente, ¿cuál es la probabilidad de que el peso


de llenado sea menor que el promedio?

e. ¿Cuál debe ser el tiempo de llenado mínimo para pertenecer al 25% de recipientes con
mayor peso de llenado?

Xmax=?
75% = 0.75 25%

Xmin=?

2. Una máquina automática para el llenado de paquetes de arroz puede regularse de modo
que la cantidad media de arroz llenado sea la que se desee. Si la cantidad de arroz
depositada se distribuye normalmente con desviación estándar igual a 10 gramos, ¿cuál
debe ser la regulación media de modo que sólo el 1% de los paquetes tengan un peso neto
inferior a 990 gramos?

UPCPC
MA44 Estadística 113

3. En un taller de la Industria Sideromecánica se fabrican árboles de leva para darles uso en


motores de gasolina. Después de investigaciones realizadas se ha llegado a la conclusión de
que la excentricidad de estos árboles de leva es una variable aleatoria normalmente
distribuida con media de 1.02 pulgadas y desviación estándar de 0.44 pulgadas. Calcule la
probabilidad de que al seleccionar un árbol de leva aleatoriamente este tenga una
excentricidad:

a. Menor de 1 pulgada.

b. Al menos 1.05 pulgadas.

c. ¿Cuál es el valor de la excentricidad por debajo del cual se encuentra el 70% de los
árboles de leva?

d. ¿Cuál es el valor de la excentricidad por encima del cual se encuentra el 80% de los
árboles de leva?

e. Si se seleccionan 10 árboles de leva aleatoriamente ¿Cuál es la probabilidad de que


exactamente 2 de estos tengan una excentricidad menor que 1 pulgada?

4. La duración de las llamadas telefónicas de larga distancia realizadas desde una central
telefónica tiene distribución aproximadamente normal con media y desviación estándar
iguales a 130 segundos y 30 segundos respectivamente. ¿Cuál es la probabilidad que una
llamada realizada desde la central telefónica haya durado entre 90 y 170 segundos?

5. Un tubo fluorescente tiene una duración distribuida normalmente con una media de 7000
horas y una desviación estándar de 1000 horas. Un competidor ha inventado un sistema de

UPCPC
MA44 Estadística 114

iluminación fluorescente compacto que se puede insertar en los receptáculos de lámparas


incandescentes. El competidor asegura que el nuevo tubo compacto tiene una duración
distribuida normalmente con una media de 7500 horas y una desviación estándar de 1200
horas. ¿Cuál tubo fluorescente tiene mayor probabilidad de tener una duración mayor que
9000 horas?

6. Un contratista de construcción afirma que elaborar un proyecto de construcción demora


en promedio 35 horas de trabajo, y el 97.5% de los proyectos demandan como máximo
38,92 horas. Considerando que los tiempos para completar proyectos similares se
distribuyen normalmente.
a. ¿Cuál es la probabilidad de que un proyecto demande menos de 32 horas?
b. Si el contratista demora más de 48 horas deberá devolver 2% del costo de dicho
proyecto; si en cambio demora menos de 29,5 horas, recibirá un incentivo de 5% del
costo del proyecto, ¿cuánto esperaría recibir de incentivo?

2.13 Otros modelos de probabilidad aplicados en la teoría de la


confiabilidad e hidrología
Confiabilidad de un producto: La probabilidad de que funcione dentro de límites dados al
menos durante un período determinado en condiciones ambientales específicas.
Función de confiabilidad R(t)
Sea la variable aleatoria T: tiempo hasta que falle un equipo, la función de confiabilidad R(t) se
define:

𝑅(𝑡) = 𝑃(𝑇 > 𝑡) = 1 − 𝐹(𝑡), 𝑑𝑜𝑛𝑑𝑒 𝐹(𝑡)𝑒𝑠 𝑙𝑎 𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎

𝑍(𝑡): 𝑇𝑎𝑠𝑎 𝑑𝑒 𝑓𝑎𝑙𝑙𝑎𝑠,


𝑥
𝑅(𝑡) = 𝑒 − ∫0 𝑍(𝑡)𝑑𝑡 𝑙𝑎 𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑑𝑒𝑛𝑠𝑖𝑑𝑎𝑑 𝑠𝑒 𝑑𝑒𝑓𝑖𝑛𝑒: 𝑓(𝑡) = 𝑍(𝑡)𝑅(𝑡)
𝑍(𝑡)

1
Si la tasa de falla es constante, 𝑍(𝑡) = 𝛽 T: tiempo hasta que falle o tiempo entre fallas tiene

UPCPC
MA44 Estadística 115

Distribución Exponencial 𝒕~𝑬𝒙𝒑𝒐𝒏𝒆𝒏𝒄𝒊𝒂𝒍 (𝜷)


𝑡1
1 − ∫0 𝑑𝑡 −𝑡⁄𝛽 1 −𝑡⁄𝛽
𝑍(𝑡) = 𝑅(𝑡) = 𝑒 𝛽 =𝑒 𝑓(𝑡) = 𝑒
𝛽 𝛽
La media y la varianza es:
𝜇=𝛽 y 𝜎 2 = 𝛽2
𝛼
Si la tasa de falla es 𝑍(𝑡) = 𝛽 𝑡 𝛼−1 T: tiempo hasta que falle o tiempo entre fallas tiene

Distribución Weibull 𝒕~𝑾𝒆𝒊𝒃𝒖𝒍𝒍( 𝜶, 𝜷)

𝛼 𝛼−1 𝛼 𝑡
−𝛽 ∫0 𝑡 𝛼−1 𝑑𝑡
𝑍(𝑡) = 𝑡 𝑅(𝑡) = 𝑒
𝛽
−𝑡 𝛼⁄
𝑑𝑒𝑠𝑎𝑟𝑟𝑜𝑙𝑙𝑎𝑛𝑑𝑜 𝑙𝑎 𝑖𝑛𝑡𝑒𝑔𝑟𝑎𝑙 𝑅(𝑡) = 𝑒 𝛽

La función de densidad de la distribución de Weibull:

𝛼 𝛼−1 −𝑡 𝛼⁄𝛽
𝑓 (𝑡 ) = 𝑡 𝑒
𝛽

Se observa que si α=1 se tiene la función de densidad de la distribución exponencial.

La media y la varianza son:


1⁄ 𝛼 +1
𝜇=𝛽 𝛼Γ ( )
𝛼

2⁄ [Γ(𝛼+2)−Γ2 (𝛼+1 )]
𝜎2 = 𝛽 𝛼 𝛼 𝛼

Distribución gamma 𝒕~𝑮𝒂𝒎𝒎𝒂(𝜶, 𝜷)


−𝑡⁄
𝑡 𝛼−1 𝑒 𝛽
𝑓(𝑡) = 𝛼
𝛽 Γ(α)

Donde 𝑙𝑎 𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑔𝑎𝑚𝑚𝑎 Γ(α) = (α − 1)Γ(α − 1) = Γ(α) = (α − 1)!

La media y la varianza son:


𝜇 = 𝛼𝛽

𝜎 2 = 𝛼𝛽2

En Hidrología, las precipitaciones o caudales anuales suelen ajustarse a la distribución normal,


pero los valores máximos, no. Si consideramos el día más caudaloso o el más lluvioso de cada
año de una serie larga de años (eso es necesario para estudiar la previsión de avenidas), no se

UPCPC
MA44 Estadística 116

ajustarán a Gauss, sino probablemente a la campana asimétrica descrita por Gumbel o alguna
similar.

Distribución de probabilidad de Gumbel

Este modelo se utiliza para el estudio de los valores extremos. Por ejemplo, el día más caudaloso
o de mayor precipitación de cada aña de una serie de años.
−𝑏 𝜎𝑦 𝜇𝑦
𝐹(𝑥) = 𝑒 −𝑒 𝑏 = 𝛼(𝑥 − 𝜇) 𝛼 = 𝜇 = 𝑥̅ −
𝑆𝑥 𝛼

𝑥̅ = 𝑀𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝑆𝑥 = 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝜎𝑦 , 𝜇𝑦 = 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑡𝑎𝑏𝑙𝑎 𝑠𝑒𝑔ú𝑛 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎

En hidrología, también se usan los modelos de probabilidad Gamma, exponencial y otros.

UPCPC
MA44 Estadística 117

Unidad 3. Muestreo

Unidad elemental Es el objeto sobre el cual se hace la medición. También llamada unidad de
observación, unidad de análiisis, unidad estadística o elemento. Por ejemplo,
en estudios de poblaciones humanas, con frecuencia ocurre que la unidad
elemental es cada individuo.

Población Es el conjunto de todas las unidades elementales posibles que podrían


muestreada extraerse en una muestra; es decir, es la población de donde se extrae la
muestra.

Unidad de Es la unidad donde realizamos la muestra. Por ejemplo, si queremos estudiar


muestreo a las personas pero no tenemos la lista de todos los individuos que
pertenecen a la población objetivo, la unidad de muestreo sería cada familia
y la unidad elemental sería cada individuo que vive en la familia

Marco Es una lista de las unidades de muestreo que estan disponibles para
muestral elección.

Para las encuestas telefónicas el marco de muestreo podría ser una lista de todos los números
telefónicos residenciales de la ciudad; para las entrevistas personales una lista de las
direcciones de todas las calles; para una encuesta de agricultura una lista de todas las granjas
o un mapa con todas las áreas que contienen granjas.

UPCPC
MA44 Estadística 118

3.1 Censo
Es una investigación estadística que consiste en el recuento de la totalidad de los elementos
que componen la población por investigar. Es necesario que se especifique el espacio y el
tiempo al que se refiere el recuento.

Por ejemplo, el 22 de octubre del 2017 se realizaron los Censos Nacionales 2017: XII de
Población, VII de Vivienda y III de Comunidades Indígenas. Su finalidad es proveer información
sobre la composición, distribución geográfica y crecimiento de la población, los patrones de la
concentración urbana y rural, las características y servicios básicos de la vivienda para la
ejecución de las políticas públicas.

Tomado: http://www.censos2017.pe/etapas-censo/

3.2 Muestreo
Cuando se opta por una investigación usando una muestra en vez de la población, el estudio
estadístico comprende por lo menos cuatro etapas:

• Definición de la población objetivo y búsqueda del marco muestral.


• Determinación del tamaño de la muestra.
• Selección de las unidades.
• Registro de las observaciones.

UPCPC
MA44 Estadística 119

En el curso trabajaremos las dos últimas.

• La selección de las unidades y


• El registro de las observaciones

Por ejemplo, la Asociación Peruana de Empresas de Investigación realizaba una encuesta para
determinar el nivel socioeconómico de una persona. Hoy en día, ya no encuesta, si no más
bien usa la Encuesta Nacional de Hogares (ENAHO) realizada por el Instituto Nacional de
Estadística e Informática (INEI).

Niveles socioeconómicos en Lima Metropolitana y Callao


Ficha técnica
Universo de estudio

• Se consideró como universo de estudio a todos los hogares


pertenecientes a Lima Metropolitana entendida como los distritos de
Lima ubicados en el núcleo urbano (sin considerar balnearios) y la
Provincia Constitucional del Callao. Se definió como hogar, al conjunto de personas que,
habitando en la misma vivienda, preparan y consumen sus alimentos en común.

• La persona informante fue el jefe de familia, definido como aquella persona que
más aporta económicamente en el hogar.

Marco muestral
Para el desarrollo de la investigación se consideró como marco muestral:

• La base de datos de viviendas del Instituto Nacional de Estadística e Informática (INEI).


• Actualización mediante aplicación de rastreo de campo efectuada por APEIM en las zonas
de mayor crecimiento de la ciudad (conos)

Tamaño de la muestra

• Se entrevistó a un total de 3.598 hogares distribuidos en 41 distritos.


• El margen de error máximo probable con un nivel de confianza del 95.1 % y considerando el
máximo de dispersión (p = q = 50%) fue de ± 1.63%.

UPCPC
MA44 Estadística 120

• Dentro de esta muestra se realizaron 200 entrevistas en Distritos con predominio de los
N.S.E. Muy Alto/Alto con el propósito de obtener una submuestra estadísticamente
significativa para este segmento.
• El total de entrevistas fue desagregado proporcionalmente a la distribución poblacional de
cada uno de los distritos de Lima Metropolitana.

Selección de la muestra

• Determinada la cantidad de entrevistas a aplicar por


distrito, se procedió a sortear tantas manzanas como
entrevistas se requerían.
• Dentro de cada manzana se seleccionó por un sistema aleatorio simple cinco viviendas: una
vivienda titular y cuatro viviendas suplentes. Los hogares titulares fueron visitados hasta en
tres oportunidades antes de proceder al reemplazo. Se controló que la tasa de reemplazo
no excediera el 10% del total de entrevistas originalmente sorteadas.

Situación Media poblacional 


o proporción poblacional p
Si deseamos estimar la media
del ingreso diario de un
conductor de taxi por aplicación
¿se debe entrevistar a 500
taxistas o basta con 200?

Si queremos estimar el
porcentaje de dueños que
llevan todos los meses a
su perro al veterinario ¿a
cuántos dueños se debe
entrevistar?

UPCPC
MA44 Estadística 121

N= 120

Si queremos estimar el tiempo


promedio de servicio ¿a cuántos
trabajadores se debe entrevistar?

𝑧(1−𝛼) × 𝑠 2
2
𝑛=( )
𝑒

Seleccionar una muestra de 12 n = 12


trabajadores mediante muestreo
aleatorio simple Use las columnas:
C12, C2, C11, C7 de la tabla de números
aleatorios

X= Tiempo de servicio
Trabajador Posición
(meses)
1
2
3
4
5
6
7
8
9
10
11
12
promedio

UPCPC
MA44 Estadística 122

Tamaño de muestra para estimar la media de una población


(V. Cuantitativa)

Al iniciar cualquier investigación, la pregunta que surge es:

• ¿Cómo podemos determinar el tamaño óptimo de una muestra?


• ¿Bastará con aplicar un cuestionario a 100 personas?
• ¿Será necesario encuestar a 500 individuos?
• ¿Cómo influye la variabilidad de las respuestas de cada encuestado?
• ¿Qué margen de error tendrán los resultados hallados en la encuesta?

La respuesta a cada una de estas preguntas nos la da la Estadística.


Cuando la varianza poblacional es desconocida
A la hora de determinar el tamaño que debe alcanzar una muestra hay que tener en cuenta: el
parámetro a estimar, el margen de error o error de estimación, la varianza poblacional y el
nivel de confianza. − + 𝑥̅
𝑥̅ µ
Margen de error: I𝑥̅ − µI
Es la diferencia entre un estadístico y su parámetro correspondiente. Nos da una idea clara de
hasta dónde y con qué probabilidad una estimación basada en una muestra se aleja del valor
que se hubiera obtenido por medio de un censo completo. Un estadístico será más preciso
cuando su error sea más pequeño.
Nivel de confianza (A mayor confianza, mayor es el tamaño de mi muestra)
Es la probabilidad de que el intervalo construido en torno a un estadístico contenga al verdadero
valor del parámetro.

Varianza poblacional
Cuando una población es más homogénea la varianza es menor y el número de entrevistas
necesarias será más pequeño. Generalmente es un valor desconocido y hay que estimarlo a
partir de datos de estudios previos.
La fórmula para determinar el tamaño de muestra n es:
2
Z  s
 1− 
n =  2  → Redondeo a más
 e 
 
• El valor de s puede ser estimada a partir de una muestra preliminar o piloto.
• Si la población es finita; es decir, se conoce el tamaño de la población, el tamaño de muestra
se corrige con la siguiente fórmula:

UPCPC
MA44 Estadística 123

n
nc =
1+
n ➔ Redondeo a más
N

TABLA DE LA DISTRIBUCION NORMAL ESTANDAR

Área bajo la curva normal:  P ( Z  z ) =  


Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535
0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409
0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173
0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793
0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891
1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298
1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147
1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.91774
1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189
1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408
1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449
1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169
2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520
2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643
2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736
2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807
2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861
3.0 0.998650 0.998694 0.998736 0.998777 0.998817 0.998856 0.998893 0.998930 0.998965 0.998999
3.1 0.999032 0.999065 0.999096 0.999126 0.999155 0.999184 0.999211 0.999238 0.999264 0.999289
3.2 0.999313 0.999336 0.999359 0.999381 0.999402 0.999423 0.999443 0.999462 0.999481 0.999499
3.3 0.999517 0.999534 0.999550 0.999566 0.999581 0.999596 0.999610 0.999624 0.999638 0.999651
3.4 0.999663 0.999675 0.999687 0.999698 0.999709 0.999720 0.999730 0.999740 0.999749 0.999758
3.5 0.999767 0.999776 0.999784 0.999792 0.999800 0.999807 0.999815 0.999822 0.999828 0.999835
3.6 0.999841 0.999847 0.999853 0.999858 0.999864 0.999869 0.999874 0.999879 0.999883 0.999888
3.7 0.999892 0.999896 0.999900 0.999904 0.999908 0.999912 0.999915 0.999918 0.999922 0.999925

UPCPC
MA44 Estadística 124

3.8 0.999928 0.999931 0.999933 0.999936 0.999938 0.999941 0.999943 0.999946 0.999948 0.999950
3.9 0.999952 0.999954 0.999956 0.999958 0.999959 0.999961 0.999963 0.999964 0.999966 0.999967

Ejemplo

1. El jefe de la oficina de seguridad del distrito de San Martin de Porres desea realizar una
estimación de cuánto tiempo, en promedio, estarían dispuestos a permanecer en las charlas
sobre rondas vecinales los vecinos del distrito. En estudios anteriores se estimó que el tiempo
medio era de 45,25 minutos con una varianza de 18,75 minutos2, ¿A cuántas personas se
debería entrevistar si se estima un error máximo de 1,25 minutos y una confianza del 95%?
Suponga que esta variable se distribuye normalmente.

Solución

El margen de error es: e = 1,25

La desviación estándar muestral es s = √18.75


El valor en la tabla normal estándar es Z(0,975) = 1,96
1.962 × 18.75
𝑛= = 46.09 ≈ 47
1.252
Se necesitará seleccionar una muestra de 47 vecinos del distrito de San Martin de Porres.

2. Universal es una nueva emisora de carácter político y a una semana de estar al aire cuenta
ya con 3000 radioescuchas. El gerente de Universal desea realizar un estudio para estimar el
tiempo de conexión medio de los oyentes. ¿Cuál debe ser el tamaño de muestra de oyentes
que se necesita si desea tener un error de estimación de 0,15 horas con un nivel de confianza
del 95%?

Al seleccionar una muestra piloto se obtuvieron los siguientes resultados, en horas:

3,2 4,8 5,3 9,1 6,3 8,2 6,5 9,6 10,3 8,6
6,3 7,9 8,2 7,9 6,9 9,3 8,6 6,8 10,1 9,0

Solución
El margen de error es e = 0,15 y la desviación estándar s = 1,8597
Confianza=95% → Significancia 5%
El valor de Z(0.975) = 1,96

UPCPC
MA44 Estadística 125

Luego, se debe encuestar a 591 radio oyentes.


Como se conoce el tamaño de la población lo correcto es:
n
nc = = 494
n
1+
N

3. ¿Cuál debe ser el tamaño de muestra si se desea estimar el tiempo promedio, en horas, que
demoran los estudiantes en llegar a la universidad con un nivel de confianza del 94% y con
un error de estimación de 0,1 horas? Una muestra piloto de 8 alumnos arrojó los siguientes
resultados:

2,0 1,5 0,45 1,45 1,0 0,30 1,20 1,30

Solución
El margen de error es e = 0,1 y la desviación estándar s = 0,56

4. La gerencia de un diario local desea estimar el gasto promedio mensual que las familias
destinan a la compra de diarios. La gerencia desea que sus resultados tengan un nivel de
confianza del 95% y un error de estimación no mayor a tres soles. Si la desviación estándar
de los gastos en compra de diarios en una muestra piloto fue de 20 soles ¿Qué tamaño de
muestra deberá seleccionar?

Solución

Ejercicios de aplicación

1. Se desea realizar una encuesta para estimar el número promedio de amigos que los jóvenes
tienen en su cuenta de Facebook. Con un error de estimación de cinco amigos y con un nivel
de confianza del 95%, determine el tamaño de muestra adecuado si en una muestra piloto
se obtuvo que el valor de la desviación estándar del número de amigos es igual a 42.
Rpta: 272

2. El jefe de la oficina de seguridad del distrito de San Borja desea realizar una estimación de
cuánto tiempo, en promedio, estarían dispuestos a permanecer los vecinos escuchando

UPCPC
MA44 Estadística 126

charlas sobre seguridad vecinal. En estudios anteriores se estimó que el tiempo promedio
era de 45,25 minutos con una varianza de 18,75 minutos2, ¿A cuántas personas se debería
entrevistar si se estima un error máximo de un minuto y una confianza del 95%? Suponga
que esta variable se distribuye normalmente. Rpta: 73

3. La máquina de refrescos de una universidad está ajustada de tal manera que la cantidad de
líquido despachada se distribuye aproximadamente en forma normal. ¿Qué tan grande se
requiere que sea la muestra si se desea tener una confianza de 98% de que su media muestral
esté dentro de 0,05 centilitros del promedio real? Se cuenta con la siguiente información de
una muestra preliminar o piloto de tamaño 24. Rpta: 60

1,99 1,98 2,04 1,97 2,18 2,04 2,13 2,03 2,08 2,72 2,04 2,09
2,11 2,13 2,14 1,98 2,29 2,02 1,94 1,82 2,02 2,10 2,19 2.13

4. Una editorial desea evaluar la media muestral del tiempo de distribución de su último best
seller en cada uno de sus 400 puntos de venta. Para este estudio se desea tener un error de
estimación de tres minutos con un nivel de confianza del 90%. Además, se sabe que la
desviación estándar de los tiempos de distribución es de 17 minutos. ¿Qué tamaño de
muestra debe emplearse para el estudio? Rpta: 72

5. La gerencia de un diario local quiere determinar la cantidad mensual promedio que las
familias gastan en compra de diarios. En una muestra piloto se obtuvo que la desviación
estándar de los gastos fue de 20 soles. Si la gerencia desea tener una confianza del 93% en
la información recopilada y no quiere que el error de tolerancia sea mayor a tres soles. ¿Qué
tamaño de muestra deberá seleccionar para determinar el gasto familiar mensual promedio?
Rpta: 146

Tamaño de muestra para estimar una proporción poblacional


(V. Cualitativa)

Cuando se dispone de información muestral

Si p̂ se utiliza como una estimación de p podemos tener una confianza del ( 1 −  )x100% de
que el error será menor de una cantidad específica e cuando el tamaño de la muestra es
aproximadamente:
z 2  pˆ (1 − pˆ)
1−
n= 2

e2

“Cuando no se dispone de información muestral”

UPCPC
MA44 Estadística 127

El valor de pˆ(1 − pˆ ) se hace máximo cuando pˆ = 0,5 ; por lo tanto la fórmula para calcular el
tamaño de muestra queda de la siguiente manera:

z 2  0,5(1 − 0,5)
1−
n= 2

e2

Si se conoce el tamaño de la población N, entonces el tamaño de muestra se reajusta con la


siguiente fórmula:
n
nc =
n
1+
N

Ejemplos

1. En cierto estudio piloto, el 32% de los 1 600 adultos encuestados dijeron que el programa
espacial debe enfatizar la exploración científica. ¿Qué tan grande se necesita que sea la
muestra definitiva de adultos en la encuesta si se desea tener una confianza del 95% de que
el porcentaje estimado esté dentro del 2% del porcentaje real?

Solución

El valor de z  = 1,96 y la estimación del porcentaje de adultos que manifiestan que se debe
1−
2
enfatizar en la exploración científica es del 32%.

Remplazando en la fórmula del tamaño de muestra:

1,96 2 (0,32)(1 − 0,32)


n= = 2089 ,8
(0,02)2

El tamaño de muestra con las condiciones solicitadas será 2090 adultos.


2. Una agencia publicitaria desea hacer una afirmación en su spot publicitario. Para ello lleva a
cabo un estudio para estimar el porcentaje de ciudadanos de una gran ciudad que están a
favor de que el agua se trate con flúor. ¿Qué tan grande debe ser la muestra que debe
seleccionar si se desea tener una confianza de 95% de que la estimación esté dentro del 1%
del porcentaje real?

Solución

De la tabla normal el valor de Z 1− / 2 = 1,96 .

Entonces el tamaño de muestra (n) para un margen de error (e) de 1% es:

UPCPC
MA44 Estadística 128

1,962 × 0,5 × (1−0,5)


𝑛= = 9604
0,012

Luego el tamaño de muestra solicitado será 9604 ciudadanos.


Ejercicios

1. En una muestra aleatoria de 300 personas mayores de edad de una gran ciudad se encontró
que 105 leían un determinado periódico. De acuerdo con los datos se pretende seleccionar
una nueva muestra para conseguir un error de estimación de 0,03 como máximo, con un
nivel de confianza del 98% para la estimación de la proporción de lectores de ese periódico.
Encuentre el número de individuos de la población que, como mínimo, debe tener la
muestra.

Solución

Como el nivel de confianza (1 - α)% es del 98%, entonces, α = 0.02

La estimación 𝑝̂ = 105/300 = 0.35 y el margen de error (e) = 0.03

2. El alcalde de un distrito desea estimar la proporción de residentes que conocen la propuesta


respecto al uso de fondos municipales para mejorar la limpieza del distrito. ¿Qué tamaño
de muestra necesita seleccionar si requiere una confianza del 98% y un error máximo de
estimación de 0,10?

Solución

Como el nivel de confianza (1 - α)% es del 98%, entonces, α = 0.02

La estimación 𝑝̂ = 0.5 y el margen de error (e) = 0.10


Z(1-0.02/2)= Z(0.99)= 2.33

Entonces, el tamaño de muestra para las condiciones propuestas es de 136 residentes

3. En una muestra piloto de 500 familias en la ciudad de Lima, se encuentra que 340 están
suscritas a HBO. ¿Qué tan grande se requiere que sea una muestra si se quiere tener 95%
de confianza de que la estimación de la proporción de familias suscritas a HBO esté dentro
de 0,02 de la proporción verdadera?

Solución
UPCPC
MA44 Estadística 129

Como el nivel de confianza (1 - α)% es del 95%, entonces, α = …………………….….…………….…….

La estimación 𝑝̂ = ………………………… y el margen de error (e) = …………….......................…………

Entonces, el tamaño de muestra para las condiciones propuestas es de ………..……………..

4. Usted trabaja en una compañía de investigación de mercado y le han encargado estimar el


porcentaje de hogares que tienen Internet en casa, ¿cuántos hogares debe encuestar si
desea tener una confianza del 95% de que el porcentaje muestral difiera del poblacional a
lo más en 2,5%?

Solución

Como el nivel de confianza (1 - α)% es del 95%, entonces α = ……………………………………..……….

La estimación 𝑝̂ =. . . . . . . . . . … … … … . . . . . . .. y el margen de error (e) = ………….………………..……

Entonces, el tamaño de muestra para las condiciones propuestas es de ………..……………..


Ejercicios de aplicación

1. La alcaldía de Lima desea concientizar a la población a través de la campaña “Si toma no


maneje” encargada a una importante agencia publicitaria. Con un 95% de confianza y con un
error de estimación no mayor a 3,5% ¿de qué tamaño necesita tomar la muestra la agencia
para estimar el porcentaje de todos los ciudadanos a favor de esta campaña?

UPCPC
MA44 Estadística 130

Rpta: 784

2. Se realiza un estudio para estimar la proporción de residentes en una ciudad que están a
favor de la construcción de una vía expresa. ¿Qué tan grande deber ser una muestra si se
quiere una confianza de 97% de que la estimación estará dentro de 0,03 de la proporción
real de residentes de la ciudad que están a favor de la construcción de la vía expresa?
Rpta: 1309

3. Una empresa desea estimar la proporción de trabajadores del área de diseño publicitario
que están a favor de que se corrija el programa de capacitación que se viene dando
actualmente en el área. La estimación debe quedar a menos de 0,08 de la proporción
verdadera de los que favorecen el programa de capacitación. Con una confianza del 95%
¿cuántos trabajadores se deben seleccionar? Rpta: 151

4. Un supermercado ha adquirido un lote de 2 000 revistas. En adquisiciones anteriores se ha


obtenido que la proporción de revistas defectuosas es alrededor de 0,18. ¿Qué tamaño de
muestra debe seleccionarse para estimar la proporción de revistas defectuosas en este lote
si se desea tener un error de estimación de 0,04 con una confianza del 90%? Rpta: 222

5. Una reportera de la revista Byte desea realizar una encuesta para estimar la verdadera
proporción de estudiantes universitarios que poseen tablet y quiere tener una confianza del
96% con un margen de error de 0,035. Suponga que en un estudio previo obtuvo un estimado
de la proporción que reveló un porcentaje del 29% de estudiantes universitarios que poseen
tablet. ¿A cuántos estudiantes universitarios deberá encuestar? Rpta: 707

3.5 Muestreo probabilístico


Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de
equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad
de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles
muestras de tamaño n tienen la misma probabilidad de ser seleccionadas.

Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la


muestra extraída y son, por tanto, los más recomendables.

Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos:

UPCPC
MA44 Estadística 131

aleatorio simple sistemático

Se selecciona una muestra en Se selecciona un primer


forma aleatoria y sin reemplazo elemento aleatoriamente y,
a n unidades de muestreo de
una población que contiene un
luego, los demás elementos
total de N unidades. Se garantiza que conformarán la
que cada una de las muestras muestra cada cierto
posibles tiene la misma intervalo. Este muestreo
probabilidad de ser elegida. supone que se cuenta con
una enumeración completa
de los elementos de la
población.

Ficha técnica

La ficha técnica es el documento donde consta la metodología y el proceso que se ha seguido


para realizar un estudio social o de mercado.

En el caso de los estudios cuantitativos, la información a incluir es la siguiente:

Descripción del universo


Metodología de selección de la muestra
Tamaño muestral
Nivel de confianza y margen de error con el que se presentan los resultados
Técnica aplicada para realizar el trabajo de campo
Período de recogida de la información

UPCPC
MA44 Estadística 132

Ejemplo de ficha técnica

Ejercicio

Lea la siguiente ficha técnica y complete los espacios en blanco.

UPCPC
MA44 Estadística 133

Complete:

1. Descripción del universo: ………………………..………………………..……………………………….………………….


2. Metodología de selección de la muestra ………………………………………………………………….……….…..
3. Tamaño muestral ………………………..……………………………………….….……………………………..…………….
4. Nivel de confianza y margen de error con el que se pre-sentan los resultados ……………….…….
5. Técnica aplicada para realizar el trabajo de campo …………….……………………………..……………..…..
6. Período de recogida de la información ……………….…………….…………………………………………………..

Elección de la muestra

Se seleccionará los elementos del marco de muestreo que conformarán la muestra aplicando la
técnica de muestreo apropiada para el estudio que se desea llevar a cabo.

Muestreo aleatorio simple

Es el procedimiento por el cual se selecciona una muestra en forma aleatoria y sin reemplazo a
n unidades de muestreo de una población que contiene un total de N unidades.

Se garantiza que cada una de las muestras posibles tiene la misma probabilidad de ser elegida.

Pasos por seguir para seleccionar una muestra simple aleatoria

Enumere las unidades del marco muestral con números sucesivos.


Seleccione tantos elementos del marco muestral como sea el tamaño requerido de la
muestra, usando una tabla de números aleatorios.
La selección de las unidades se realiza sin reemplazo.

El muestreo aleatorio simple presenta dos propiedades:

• Equiprobable: Cada unidad tiene las mismas posibilidades de ser elegida.


• Independencia: La selección de una unidad no influye en la selección de otras unidades.

Pero en el mundo real es difícil encontrar muestras completamente independientes y


representativas.

Por ejemplo, hacer una encuesta a los votantes marcando números de teléfono al azar es un
método no representativo pues no tiene en cuenta a los votantes que no disponen de teléfono
y cuenta varias veces a los que tienen varios números.

UPCPC
MA44 Estadística 134

Ejercicio

1. Una empresa de tiene un total de 150 empleados y ha registrado información acerca de las
variables: ingreso mensual, en soles (Ingreso) y años cumplidos en la empresa (Años).

Marco muestral: Trabajadores registrados


Nº Ingreso Años Nº Ingreso Años Nº Ingreso Años Nº Ingreso Años
1 2300 5 39 2600 16 77 1800 3 115 1700 3
2 2800 11 40 2700 18 78 1700 5 116 2600 19
3 2400 4 41 2100 11 79 1700 4 117 1600 1
4 2500 2 42 2300 14 80 1700 0 118 1800 6
5 2300 3 43 1700 0 81 1700 1 119 2100 10
6 2100 2 44 2200 13 82 2100 6 120 1700 0
7 1700 2 45 2900 20 83 2600 17 121 2400 16
8 2000 0 46 1800 5 84 2400 9 122 2600 17
9 2200 7 47 2100 16 85 2600 19 123 2100 10
10 2100 4 48 2000 12 86 1900 7 124 2100 8
11 1700 0 49 2000 12 87 1600 0 125 2400 17
12 2500 2 50 2900 20 88 1900 3 126 1700 1
13 2800 13 51 2100 13 89 2100 14 127 2600 20

UPCPC
MA44 Estadística 135

14 2400 9 52 2100 9 90 1700 0 128 2400 16


15 1700 1 53 1800 1 91 2100 15 129 2700 17
16 2400 9 54 2000 9 92 1700 1 130 2100 12
17 2200 10 55 2100 10 93 2300 14 131 1600 0
18 2200 4 56 1900 4 94 2500 16 132 2100 15
19 2300 10 57 2000 10 95 2600 18 133 1900 5
20 2800 11 58 2300 11 96 1900 3 134 2100 12
21 2100 7 59 2000 7 97 2500 19 135 2200 12
22 1700 1 60 1700 1 98 1800 6 136 2400 13
23 2500 6 61 1900 6 99 1700 2 137 1800 4
24 2400 9 62 2000 9 100 2000 10 138 2600 17
25 2700 17 63 2400 17 101 2400 16 139 2700 20
26 1700 0 64 1700 0 102 1700 0 140 2500 16
27 1600 2 65 1700 2 103 2500 12 141 2500 16
28 2600 17 66 2400 17 104 1700 3 142 1900 6
29 2500 13 67 2500 13 105 2400 17 143 2100 15
30 2500 16 68 2600 16 106 2400 16 144 1700 9
31 2700 17 69 2100 14 107 1900 7 145 1500 0
32 1700 1 70 1900 7 108 1700 1 146 1800 18
33 1600 1 71 2000 9 109 2100 6 147 2100 10
34 2400 11 72 1800 7 110 2000 5 148 2700 19
35 1900 3 73 2100 10 111 2000 3 149 1800 9
36 1800 5 74 2300 12 112 2500 13 150 2100 15
37 1800 3 75 2700 20 113 1700 0
38 2400 14 76 2800 20 114 2500 19

a. Seleccione una muestra de 16 trabajadores usando muestreo simple aleatorio. Elabore un


listado con el número seleccionado y el valor del ingreso mensual y años en la empresa. Use
las columnas C2, C10, C11 y C15 de la tabla de números aleatorios.
b. Con la muestra, estime e interprete las medidas de tendencia central para el ingreso
mensual.
c. Con la muestra, estime e interprete el cuartil 1 para la variable años en la empresa.

Solución

a. Elabore un listado con el número seleccionado y el valor del ingreso mensual y años en la
empresa:

Posición

Ingreso mensual

Años en la empresa

Posición

Ingreso mensual

UPCPC
MA44 Estadística 136

Años en la empresa

UPCPC
MA44 Estadística 137

TABLA DE NÚMEROS ALEATORIOS


C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20
4 8 2 4 6 6 3 5 4 5 6 0 5 2 6 9 8 0 0 9
9 2 9 8 1 4 4 1 9 8 5 1 1 9 7 9 8 5 9 0
0 2 1 3 3 9 1 6 2 9 7 1 2 6 6 0 7 5 6 4
9 6 0 8 3 5 6 6 6 4 0 8 6 3 4 8 1 8 5 4
1 6 4 1 6 5 2 7 7 2 9 9 9 9 7 4 1 5 4 9
2 9 0 5 5 0 8 4 8 7 4 6 2 1 7 0 1 5 8 7
6 1 2 9 5 0 4 0 9 8 2 0 2 6 8 7 0 1 9 7
1 3 1 8 9 9 0 1 2 6 3 7 1 9 6 1 7 9 9 8
4 5 8 1 1 4 5 6 7 9 9 9 2 1 3 2 3 7 7 9
0 0 3 6 9 6 5 0 6 4 7 9 8 1 2 4 4 8 3 6
7 2 4 5 4 1 2 4 4 6 9 2 6 6 6 5 2 0 0 4
4 9 3 4 4 2 4 5 9 0 8 7 4 8 4 2 1 2 5 4
6 1 2 8 1 3 3 2 0 2 6 0 7 2 7 9 1 4 6 5
9 3 4 0 8 1 3 3 7 3 2 4 8 6 7 9 0 6 2 8
1 8 7 1 3 4 3 9 3 1 7 8 3 7 3 3 0 8 3 5
0 2 1 4 7 5 7 3 1 1 9 3 3 8 7 4 8 0 2 5
3 6 3 4 1 9 8 1 0 9 0 1 1 0 9 3 6 8 6 0
9 4 6 7 6 7 9 1 2 2 7 2 3 9 3 4 6 9 8 1
5 9 9 8 4 4 5 9 1 5 4 7 3 0 6 8 1 6 8 1
8 1 8 8 2 3 9 1 4 2 4 9 1 4 0 6 0 3 2 8
0 5 3 8 0 4 3 9 4 6 0 8 8 3 8 7 1 2 2 3
9 7 1 4 2 7 5 5 2 8 6 6 3 5 5 9 9 0 6 8
6 9 5 9 4 9 1 8 2 0 2 5 3 9 1 2 0 3 0 8
7 4 9 1 4 8 8 6 6 8 5 9 4 8 5 7 7 9 6 7
3 8 1 2 2 4 0 1 4 5 7 7 4 0 4 8 9 4 7 0
9 9 9 7 8 0 0 9 3 2 7 0 5 0 2 7 8 7 3 6
4 8 1 5 8 5 5 1 4 9 6 4 4 4 7 4 5 7 5 0
8 6 7 3 6 1 7 1 1 3 5 5 7 4 4 7 6 7 2 8
4 7 1 4 0 3 6 2 4 4 4 4 0 3 6 3 4 1 2 8
6 5 5 8 8 4 3 4 8 9 0 6 7 6 0 0 8 6 8 4
9 2 0 9 8 2 8 3 4 3 2 8 9 4 8 7 9 4 9 4
1 3 7 9 4 8 3 7 0 8 6 6 6 8 4 1 1 3 1 3
3 3 2 5 6 7 6 1 6 6 1 7 6 5 8 1 6 2 2 7
9 9 9 8 2 8 8 1 9 1 6 2 7 5 1 8 6 1 4 4
1 7 5 4 0 9 5 7 8 7 5 0 8 6 6 2 5 3 2 3
2 7 1 7 8 8 3 8 6 9 9 2 7 4 5 9 5 6 6 6
6 0 9 2 6 1 5 1 2 3 1 8 1 2 0 8 6 4 4 0
3 3 6 3 4 9 6 4 4 9 8 5 7 3 3 4 2 3 2 8
0 1 9 7 9 7 9 4 4 1 6 6 7 7 0 7 9 8 6 8
4 7 1 5 3 7 0 9 2 5 2 1 0 0 4 0 4 6 8 8
7 8 9 9 6 8 5 6 8 1 9 2 7 5 1 7 0 1 5 5
2 2 3 3 1 8 1 9 8 4 2 8 5 2 8 1 7 6 4 6
2 6 6 4 1 4 8 1 0 6 0 1 3 4 0 9 1 2 8 6
5 1 9 0 3 9 1 6 1 7 8 8 2 8 0 7 8 4 8 0
9 0 5 8 4 9 2 2 3 9 8 5 9 5 7 8 4 9 9 4
8 6 1 9 2 5 0 0 7 9 0 0 7 4 5 4 8 6 2 3
1 9 1 0 9 7 5 1 2 7 1 9 4 8 4 8 9 6 6 9
5 6 0 6 1 3 3 5 2 1 0 1 9 2 8 0 2 6 6 3
8 6 9 9 8 0 8 1 8 2 6 6 8 4 0 7 8 2 5 1
3 1 6 1 0 5 7 5 7 0 6 3 0 4 1 4 0 3 0 8

UPCPC
MA44 Estadística 138

b. Con la muestra obtenida estime e interprete las medidas de tendencia central para la
variable ingreso mensual.

Medidas Valor Interpretación

Media

Mediana

Moda

Muestreo sistemático

En el muestreo sistemático se debe elegir un elemento del marco muestral cada cierto intervalo.
Este muestreo supone que se cuenta con una enumeración completa de los elementos de la
población.

Una característica importante del muestreo sistemático es que presenta menos variabilidad que
el muestreo aleatorio simple, esto debido a la presencia de una estratificación innata en el
diseño del muestreo sistemático.

Procedimiento para seleccionar una muestra sistemática

𝑁
Calcule el valor de k, donde 𝑘 = 𝑛 . El valor de k se redondea al valor del entero menor.
Seleccione aleatoriamente un número entero entre 1 y k llamado arranque aleatorio (A)
Para encontrar el valor de A, la cantidad de columnas a usar de la tabla de números
aleatorios dependerá de la cantidad de dígitos que tenga k. Por ejemplo, si el valor de k es
un número de dos cifras, entonces deberá agregar a la columna dada por enunciado una
columna correlativa para completar un número de 2 cifras.
A partir de este número elegido, seleccione el siguiente que ocupa la posición (A + k) del
listado del marco muestral y así sucesivamente hasta completar la muestra.

UPCPC
MA44 Estadística 139

Ejemplo

Se tiene a continuación una población de 15 personas a quienes se les consultó su edad. Se


desea elegir a cuatro de ellas mediante un muestreo sistemático. Use la columna C3, C6 y C12
de la tabla de números aleatorios.

Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Edad 12 15 23 10 32 65 34 23 43 54 22 34 56 34 25

Solución
N 15
Calculemos el valor de k, donde k = = = 3,75 . El valor de k se redondea al valor del entero
n 4
menor, luego k = 3. Seleccionemos aleatoriamente un número entero entre 1 y k = 3, llamado
arranque aleatorio (A). Observando la columna C3 de la tabla de números aleatorios tenemos
que A = 2.

TABLA DE NÚMEROS ALEATORIOS


C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20
4 8 2 4 6 6 3 5 4 5 6 0 5 2 6 9 8 0 0 9
9 2 9 8 1 4 4 1 9 8 5 1 1 9 7 9 8 5 9 0

UPCPC
MA44 Estadística 140

Los elementos seleccionados serán:

Posición 2 5 8 11
Edad 15 32 23 22

3.2.1.1 Ejercicio

1. Se tiene información de 40 personas de un distrito de Lima. Obtenga una muestra de siete


personas usando el muestreo sistemático y elabore una tabla con la posición seleccionada.
Utilice las columnas C5, C10 y C11. Además, con la muestra obtenida, calcule la edad
promedio de las personas y el porcentaje de individuos que son mujeres.

TABLA DE NÚMEROS ALEATORIOS


C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20
4 8 2 4 6 6 3 5 4 5 6 0 5 2 6 9 8 0 0 9
9 2 9 8 1 4 4 1 9 8 5 1 1 9 7 9 8 5 9 0
0 2 1 3 3 9 1 6 2 9 7 1 2 6 6 0 7 5 6 4
9 6 0 8 3 5 6 6 6 4 0 8 6 3 4 8 1 8 5 4

Marco muestral: Individuos registrados


Nº Sexo Edad Estatura Nº Sexo Edad Estatura Nº Sexo Edad Estatura
1 Mujer 15 154 15 Mujer 19 178 29 Hombre 33 147
2 Hombre 16 154 16 Mujer 30 163 30 Hombre 17 167
3 Hombre 21 156 17 Hombre 29 180 31 Mujer 34 169
4 Mujer 31 184 18 Mujer 25 174 32 Mujer 20 156
5 Hombre 21 173 19 Hombre 29 137 33 Mujer 26 164
6 Mujer 24 170 20 Hombre 25 153 34 Hombre 25 190
7 Hombre 32 176 21 Mujer 16 168 35 Mujer 23 167
8 Hombre 26 188 22 Hombre 31 161 36 Hombre 20 169
9 Mujer 21 169 23 Hombre 18 270 37 Mujer 34 176
10 Mujer 22 173 24 Hombre 21 173 38 Hombre 35 188
11 Hombre 18 177 25 Hombre 31 187 39 Mujer 30 155
12 Hombre 25 181 26 Mujer 28 161 40 Mujer 29 141
13 Mujer 29 164 27 Mujer 19 172
14 Hombre 25 159 28 Hombre 31 162

Solución

Calculemos el valor de k, donde k = N = = ................ El valor de k se redondea al valor


n
del entero menor, luego k =……….……….…… y el arranque aleatorio (A) es ………………………..….

UPCPC
MA44 Estadística 141

El cuadro con los datos es:

Posición

Sexo

Edad

Estatura

Con la muestra obtenida, calcule la edad promedio y el porcentaje de mujeres.

2. Una empresa de telecomunicaciones tiene un total de 150 empleados y ha registrado en la


tabla que se muestra a continuación información acerca de las variables: nivel educativo y
años cumplidos en la empresa (Años).

Nivel Nivel Nivel Nivel


Nº Años Nº Años Nº Años Nº Años
educativo educativo educativo educativo
1 Secundaria 5 39 Secundaria 16 77 Técnica 3 115 Superior 3
2 Secundaria 11 40 Secundaria 18 78 Técnica 5 116 Superior 19
3 Secundaria 4 41 Técnica 11 79 Técnica 4 117 Superior 1
4 Secundaria 2 42 Técnica 14 80 Técnica 0 118 Superior 6
5 Secundaria 3 43 Técnica 0 81 Técnica 1 119 Superior 10
6 Secundaria 2 44 Técnica 13 82 Técnica 6 120 Superior 0
7 Secundaria 2 45 Técnica 20 83 Técnica 17 121 Superior 16
8 Secundaria 0 46 Técnica 5 84 Técnica 9 122 Superior 17
9 Secundaria 7 47 Técnica 16 85 Técnica 19 123 Superior 10
10 Secundaria 4 48 Técnica 12 86 Técnica 7 124 Superior 8
11 Secundaria 1 49 Técnica 12 87 Técnica 0 125 Superior 17
12 Secundaria 2 50 Técnica 20 88 Técnica 3 126 Superior 1
13 Secundaria 13 51 Técnica 13 89 Técnica 14 127 Superior 20
14 Secundaria 9 52 Técnica 9 90 Técnica 0 128 Superior 16
15 Secundaria 1 53 Técnica 1 91 Técnica 15 129 Superior 17
16 Secundaria 9 54 Técnica 9 92 Técnica 1 130 Superior 12
17 Secundaria 10 55 Técnica 10 93 Técnica 14 131 Superior 0
18 Secundaria 4 56 Técnica 4 94 Técnica 16 132 Superior 15
19 Secundaria 10 57 Técnica 10 95 Técnica 18 133 Superior 5
20 Secundaria 11 58 Técnica 11 96 Técnica 3 134 Superior 12
21 Secundaria 7 59 Técnica 7 97 Técnica 19 135 Superior 12

UPCPC
MA44 Estadística 142

22 Secundaria 1 60 Técnica 1 98 Técnica 6 136 Superior 13


23 Secundaria 6 61 Técnica 6 99 Técnica 2 137 Superior 4
24 Secundaria 9 62 Técnica 9 100 Técnica 10 138 Superior 17
25 Secundaria 17 63 Técnica 17 101 Técnica 16 139 Superior 20
26 Secundaria 0 64 Técnica 0 102 Técnica 0 140 Superior 16
27 Secundaria 2 65 Técnica 2 103 Técnica 12 141 Superior 16
28 Secundaria 17 66 Técnica 17 104 Técnica 3 142 Superior 6
29 Secundaria 13 67 Técnica 13 105 Técnica 17 143 Superior 15
30 Secundaria 16 68 Técnica 16 106 Técnica 16 144 Superior 9
31 Secundaria 17 69 Técnica 14 107 Técnica 7 145 Superior 0
32 Secundaria 1 70 Técnica 7 108 Técnica 1 146 Superior 18
33 Secundaria 1 71 Técnica 9 109 Técnica 6 147 Superior 10
34 Secundaria 11 72 Técnica 7 110 Técnica 5 148 Superior 19
35 Secundaria 3 73 Técnica 10 111 Superior 3 149 Superior 9
36 Secundaria 5 74 Técnica 12 112 Superior 13 150 Superior 15
37 Secundaria 3 75 Técnica 20 113 Superior 0
38 Secundaria 14 76 Técnica 20 114 Superior 19

a. Aplique el muestreo sistemático para seleccionar una muestra de tamaño 13 empleados.


Elabore un listado con la posición seleccionada y el valor de los años cumplidos en la empresa
y nivel educativo. Utilice la columna C7, C10 y C15 de la tabla de números aleatorios.
b. Con la muestra obtenida, estime e interprete para la variable, años en la empresa el
promedio y la mediana. Obtenga además la proporción de empleados con nivel técnico.

Solución

a. Aplique el muestreo sistemático para seleccionar una muestra de tamaño 13 empleados.


Elabore un listado con la posición seleccionada y el valor de los años cumplidos en la empresa
y nivel educativo. Utilice la columna C7, C10 y C15 de la tabla de números aleatorios.

Calculemos el valor de k, donde k = N = = ................ El valor de k se redondea al valor


n
del entero menor, luego k =……………………. El arranque aleatorio (A) es ………………..………….

TABLA DE NÚMEROS ALEATORIOS


C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20
4 8 2 4 6 6 3 5 4 5 6 0 5 2 6 9 8 0 0 9
9 2 9 8 1 4 4 1 9 8 5 1 1 9 7 9 8 5 9 0
0 2 1 3 3 9 1 6 2 9 7 1 2 6 6 0 7 5 6 4
9 6 0 8 3 5 6 6 6 4 0 8 6 3 4 8 1 8 5 4
1 6 4 1 6 5 2 7 7 2 9 9 9 9 7 4 1 5 4 9
2 9 0 5 5 0 8 4 8 7 4 6 2 1 7 0 1 5 8 7
6 1 2 9 5 0 4 0 9 8 2 0 2 6 8 7 0 1 9 7
1 3 1 8 9 9 0 1 2 6 3 7 1 9 6 1 7 9 9 8
4 5 8 1 1 4 5 6 7 9 9 9 2 1 3 2 3 7 7 9

UPCPC
MA44 Estadística 143

El cuadro con los datos es:

Posición
Años en la
empresa
Nivel educativo

b. Con la muestra obtenida, estime e interprete para la variable, años en la empresa, el


promedio y la mediana. Obtenga además la proporción de empleados con nivel técnico.

Media =

Mediana =

Proporción =

UPCPC
MA44 Estadística 144

Unidad 4. Estadística inferencial


Prueba de hipótesis

La prueba de hipótesis involucra una suposición elaborada sobre algún parámetro de la


población. Después tomaremos una muestra para ver si la hipótesis podría ser correcta. La
hipótesis que contrastamos se llama hipótesis nula (Ho). La hipótesis nula se contrasta con
la hipótesis alternativa (H1)
Luego, a partir de los resultados obtenidos de la muestra, o bien rechazamos la hipótesis
nula a favor de la alternativa, o bien no rechazamos la hipótesis nula y suponemos que
nuestra estimación inicial del parámetro poblacional podría ser correcta.
El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa
simplemente que los datos de la muestra son insuficientes para inducir un rechazo de la
hipótesis nula.

Contraste de hipótesis

La hipótesis que se contrasta es rechazada o no en función de la información muestral. La


hipótesis alternativa se especifica como opción posible si se rechaza la nula.

Tipos de errores

Información muestral
No rechazar H0 Rechazar H0
H0 es cierta No hay error Error tipo I
La realidad
H0 es falsa Error tipo II No hay error

Error tipo I

Ocurre cuando se rechaza una hipótesis H0 que es verdadera. La probabilidad de cometer


error tipo I viene a ser la probabilidad de rechazar H0 cuando ésta es cierta.

𝑃𝑟(Cometer error tipo 𝐼) = 𝑃𝑟(Rechazar Ho⁄Ho es cierta) = 𝛼

El valor  es fijado por la persona que realiza la investigación. Por lo general, 1%, 5% o 10%

Error tipo II

Ocurre cuando se acepta una hipótesis H0 que es falsa, la probabilidad de cometer error tipo
II es la probabilidad de no rechazar H0 cuando ésta es falsa.

𝑃𝑟(Cometer error tipo II) = 𝑃𝑟(No rechazar Ho⁄Ho es falsa) = 𝛽

UPCPC
MA44 Estadística 145

Debido a que el valor real del parámetro es desconocido este error no puede ser fijado.

Pasos para realizar una prueba de hipótesis

Paso 6
Paso 5 •Concluir

Paso 4 •Aplicar los


criterios de
Paso 3 •Graficar las decisión
regiones
Paso 2 •Calcular el críticas
estadístico
Paso 1 •Fijar el nivel de la prueba
de
•Plantear las significación
hipótesis

Prueba de hipótesis para una media con varianza poblacional desconocida

1. Plantear las hipótesis

𝐻 : 𝜇 = 𝜇0 𝐻0 : 𝜇 ≥ 𝜇0 𝐻0 : 𝜇 ≤ 𝜇0
{ 0 { {
𝐻1 : 𝜇 ≠ 𝜇0 𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 > 𝜇0
Prueba bilateral Pruebas unilaterales

2. Fijar el nivel de significación:  (1% al 10%) → investigador 5 %


3. Estadístico de la prueba: Distribución t Student
𝑥 − 𝜇𝑜
𝑡=
𝑆⁄
√𝑛

UPCPC
MA44 Estadística 146

4. Graficar las regiones críticas

Bilateral H1:   0

- T(a/2; n-1) T(a/2; n-1)

Unilateral H1:  < 0


Izquierda

-T(a; n-1)

Unilateral H1:  > 0


Derecha

T(a; n-1)

5. Decisión: Rechazar Ho o No rechazar Ho.


6. Concluir.

UPCPC
MA44 Estadística 147

Ejemplo -2.2622 0 2.2622

1. Se sabe que el rendimiento promedio (en porcentaje) de un proceso químico es 12. Sin
embargo, últimamente se observa muchos valores menores. Para comprobar que
efectivamente el rendimiento promedio ha disminuido, se toma una muestra aleatoria de un
lote de materia prima y se registra las siguientes observaciones:

9.7 12.8 8.7 13.4 8.3 11.7 10.7 8.1 9.1 10,5

Suponiendo normalidad y a partir de la información muestral, verifique si efectivamente el


rendimiento promedio ha disminuido. Use α = 0,04.
X= rendimiento de un proceso químico, en %
- 1. Plantear hipótesis:
Ho: u>= 12 (F)
H1: < 12 (V)
- 2. α = 0,04.
- 3.Estadístico de la prueba:

- 4. Regiones críticas:

UPCPC
MA44 Estadística 148

Unilateral H1:  < 0


Izquierda

-T(0.04;9)= -1.9727

- 5. Decisión: Rechazo la H0
- 6. Conclusión: Con un nivel de significancia del 4%, sí es posible afirmar que el
rendimiento promedio del proceso químico ha disminuido.

2. Las bombillas LED poseen un rendimiento promedio luminoso superior a todas las tecnologías
existentes. La Empresa SOLARI afirma que el rendimiento luminoso de las bombillas LED que
produce es de 70 lumens/watio, sin embargo, debido a la competencia en el mercado,
introduce nuevos cambios en su tecnología con la finalidad de lograr un mejor rendimiento.
Para poder comprobar los nuevos resultados, toma una muestra aleatoria de 61 bombillas
actuales, sometiéndolas a pruebas rigurosas, obteniendo un promedio de 75 lumens/watio y
una desviación estándar de 6.8 lumens/watio. Con un nivel de significación del 4%, ¿Se puede
afirmar que los nuevos cambios mejoraron el rendimiento promedio luminoso de las bombillas
LED?
X= Rendimiento de las bombillas
1. Hipótesis
H0: u<=70 (F)
H1: u>70 (V)
2. α = 0,04.
3. Estadísticos de la prueba

4. Regiones críticas:

Unilateral H1:  > 0


Derecha

T(0.04; 60)= 1.7809

UPCPC
MA44 Estadística 149

5. Decisión: Rechazo H0
6. Conclusión: Con un nivel de significancia del 4%, sí es posible afirmar que los cambios
mejoraron el rendimiento promedio luminoso de las bombillas LED.

Ejercicios

1. Cierto fabricante de motocicletas anuncia en un comercial de televisión que su vehículo


rendirá en promedio 87 millas por galón. Los millajes (recorrido en millas) en ocho viajes
prolongados fueron: 88, 82, 81, 87, 80, 78, 79, 89. Al nivel de significación del 5% ¿el millaje
medio es menor que el anunciado?

2. La densidad de ciertos fluidos es muy volátil por lo que se requiere que la densidad promedio
sobrepase al valor de 0.031 para poder utilizarlo. La empresa 3C Ingenieros, encargada de
realizar los análisis fisicoquímicos, debe evaluar la densidad de la sustancia XP90. Para estos
fines se selecciona aleatoriamente 10 muestras de distintos lotes de producción y se registra
la densidad. Los datos se muestran a continuación:

Muestra 1 2 3 4 5 6 7 8 9 10
Densidad 0.033 0.040 0.031 0.034 0.036 0.031 0.036 0.034 0.034 0.032

¿La empresa 3C Ingenieros recomendará usar la sustancia XP90? Use un α=0.02.

3. Una de las últimas innovaciones en el campo de la iluminación es el proyector de cabeza


móvil. Este proyector está compuesto por un foco halógeno que permite variar la intensidad
luminosa. El gerente de ventas de la empresa Visual Systems S.A. ha decidido este año
exportar este novedoso proyector si la intensidad luminosa promedio de estos proyectores
es superior a 2600 lúmenes. Al seleccionar 12 proyectores y medir la intensidad luminosa de
cada proyector se obtuvieron los siguientes datos:
2600 2800 3000 2000 2400 2800 2700 2600 3000 3200 3100 2500

Suponiendo que la intensidad luminosa tiene distribución normal ¿Visual Systems S.A.
deberá decidir realizar la exportación del lote? Use un nivel de significación de 3%.

2) Según las últimas investigaciones en hidrografía, los ingenieros civiles usan actualmente
telémetros de láser manuales de bajo peso debido a su gran precisión al momento de
realizar una medición. Un ingeniero civil de una importante constructora está encargado de
analizar la eficiencia de una marca de estos aparatos, por lo que decide realizar pruebas con
este equipo, obteniendo los siguientes resultados del error de lectura, en milímetros, en la
localización de un objeto situado a 500 metros.
5.1 5.4 4.9 5.2 5.4 5.1 5.3 5 4.8

La calibración de un telemetro juega un papel muy importante en la exactitud de una


medida. Se sabe que si, en promedio, los errores de lectura sobrepasan los 5 mm,
estaríamos en una sobreestimación de la lectura, por lo que debería ser devuelto al

UPCPC
MA44 Estadística 150

laboratorio de calibración para su ajuste. Usando la información de la muestra ¿el telémetro


debería ir al laboratorio de recalibración? Use un nivel de significación del 4%.

Pruebas de hipótesis para una proporción poblacional (Variable Cualitativa)


Distribución normal estándar (TABLA DE DATOS)
1. Planteamiento de las hipótesis

𝐻 : 𝑝 = 𝑝0 𝐻 : 𝑝 ≥ 𝑝0 𝐻 : 𝑝 ≤ 𝑝0
{ 0 { 0 { 0
𝐻1 : 𝑝 ≠ 𝑝0 𝐻1 : 𝑝 < 𝑝0 𝐻1 : 𝑝 > 𝑝0

2. Fijar el nivel de significación: 𝛼(1% al 10%) →Investigador: 5%


3. Estadístico de la prueba
𝑝̂ − 𝑝𝑜
𝑍=  𝑍(0,1)
√𝑝𝑜 (1 − 𝑝𝑜 )
𝑛
𝒑̂ = 𝑷𝒂𝒓𝒕𝒆 / 𝑻𝒐𝒅𝒐
4. Graficar las regiones críticas

Zona de
Zona de Bilateral H1 : p  p 0
rechazo
rechazo

-Z(1-a/2) 0 Z(1-a/2)

Zona de
rechazo Unilateral
H1 : p < p 0
Izquierda

-Z(1-a) 0

UPCPC
MA44 Estadística 151

Unilateral H1 : p > p 0
Zona de Derecha
rechazo

0 Z(1-a)

5. Decisión: Rechazar Ho o No rechazar Ho.

6. Concluir.

Ejemplo

7. La Municipalidad de Lima ampliará el presupuesto para fiscalizar las obras si más del 30% de
las obras de Lima no cumplen o cumplen parcialmente con las normas de seguridad y
acabados en las obras de construcción civil. Se selecciona al azar 94 obras y se obteniendo la
siguiente gráfica:

Distribución de obras según el cumplimiento de las normas de


seguridad
64
70
Número de obras

60
50
40
22
30
20 8
10
0
No cumplen Cumplen parcialmente Cumplen totalemnte

Fuente: Departamento de obras de Lima cumplimiento

Con un nivel de significación del 2% y asumiendo normalidad, ¿la municipalidad ampliará el


presupuesto para fiscalizar las obras de construcción de Lima?

X: Cumplimiento de las normas de seguridad.

1. Hipótesis:
H0: p <= 0.3 (V)
H1:¿ p > 0.3 ? (F)

UPCPC
MA44 Estadística 152

2. Nivel de significancia: 2%
3. Estadístico de la prueba:
̂
𝟑𝟎
̂ − 𝒑𝒐
𝒑 − 𝟎. 𝟑
𝒁= = 𝟗𝟒 = 𝟎. 𝟒𝟎𝟓𝟏
√ 𝒑 𝒐 (𝟏 − 𝒑 𝒐 ) √ 𝟎. 𝟑(𝟏 − 𝟎. 𝟑)
𝒏 𝟗𝟒

4. Regiones criticas

Unilateral H1 : p > p 0
Zona de Derecha
rechazo

Z(1-0.02)= 0.98
Z(0.98)= 2.05

Ejercicios

1. Un fabricante sostiene que al menos el 95% de los equipos que envió a una fábrica está
acorde con las especificaciones técnicas. Una revisión de una muestra de 200 piezas reveló
que 18 eran defectuosas. Asumiendo normalidad, pruebe la afirmación del fabricante al nivel
de significancia de 1%.

2. En cierta universidad se estima que a lo más el 25% de los estudiantes van a bicicleta a la
universidad. ¿Esta parece ser una estimación válida si, en una muestra aleatoria de 90
estudiantes universitarios, se encuentra que 28 van en bicicleta a la universidad? Utilice un
nivel de significancia de 0,05.

X: Uso de bicicletas para dirigirse a la Universidad→Sí/No (V. Cualitativa)


1. Hipótesis:
H0: p <= 0.25?
H1: p>0.25

UPCPC
MA44 Estadística 153

3. Los usuarios de la sustancia XP90 indican que cuando esta sustancia no es óptima ocurre un
fenómeno conocido como licuefacción y se requiere un reproceso. La certificadora,
encargada de la realización de los análisis fisicoquímicos, asegura que la proporción de
reprocesos disminuye cuando la sustancia está certificada por lo tanto una de las metas de
la empresa es tener más del 20% de sustancias certificadas. De una muestra de 120
reprocesos se identificó que 26 usaron sustancias certificadas. En base a esta información
podemos afirmar que ¿la empresa ha logrado la meta? Use α=0,03

4. El fabricante de un nuevo controlador de errores de comunicación asegura que la proporción


de procesos en los que se pierden datos cuando su controlador está operando es menor de
0,10. A fin de probar esta aseveración, se vigila el enlace de comunicación entre una terminal
de gráficos y una computadora con el controlador de errores funcionando. De una muestra
de 300 elementos se observó los siguientes resultados:

Se perdieron datos cuando el controlador del fabricante está operando


Total
Sí No
10 290 300

¿La información recolectada refuta la aseveración del fabricante? Use  = 0,03 .

5. Una encuestadora realizó una consulta a los pobladores de la urbanización Lomas para saber
si están de acuerdo o no con la construcción de un nuevo centro comercial en el lugar. Al
seleccionar una muestra al azar de 250 pobladores de dicha urbanización, se obtuvo que 85
de ellos apoyaban la construcción del nuevo centro comercial. La construcción empezará solo
si más del 30% de los ciudadanos apoyan el proyecto, de lo contrario se debe optar por otras
urbanizaciones vecinas. Realice la prueba estadística respectiva a un nivel de significación del
3%

UPCPC
MA44 Estadística 154

Pruebas de hipótesis para la razón de varianzas poblacionales

1. Planteamiento de las hipótesis

H 0 :  1 =  2
 2 2


H 1 :  1   2
 2 2

2. Fijar el nivel de significación: α

3. Estadístico de la prueba:

𝑆2
𝐹𝑐 = 𝑆12  𝐹(𝑛1−1,𝑛2−1)
2

4. Decisión: Rechazar Ho o No rechazar Ho

5. Concluir

Ejemplo

La producción de compuestos inflamables es delicada y requiere técnicas muy precisas para


lograr resultados óptimos. Actualmente, en el laboratorio se aplica la técnica A y se desea
probar una nueva técnica, B. La siguiente información muestra el resultado de los tiempos, en
minutos, que utilizó cada técnica por proceso.

Variable N Media Desv.Est.


Técnica A 16 9.97 6.56
Técnica B 11 9.27 2.05

Un ingeniero desea probar si la variabilidad entre los tiempos usados por ambas técnicas no es
similar. Use =0,05

UPCPC
MA44 Estadística 155

Pruebas de hipótesis para la diferencia de medias poblacionales

Caso 1: Varianzas poblacionales desconocidas e iguales

1. Planteamiento de las hipótesis

Unilateral izquierda Bilateral Unilateral derecha


𝐻0 : 𝜇1 − 𝜇2 ≥ 𝑘 𝐻0 : 𝜇1 − 𝜇2 = 𝑘 𝐻0 : 𝜇1 − 𝜇2 ≤ 𝑘
𝐻1 : 𝜇1 − 𝜇2 < 𝑘 𝐻1 : 𝜇1 − 𝜇2 ≠ 𝑘 𝐻1 : 𝜇1 − 𝜇2 > 𝑘

2. Fijar el nivel de significación: α

3. Estadístico de la prueba:

(𝑥1 −𝑥2 )−𝑘 (𝑛1 −1)𝑆12 +(𝑛2 −1)𝑆22


𝑡𝑐 = ~𝑡(𝑛1 +𝑛2 −2) 𝑆𝑝2 =
1 1 𝑛1 +𝑛2 −2
√𝑆𝑝2 (𝑛 +𝑛 )
1 2

Mínimo 4 decimales

4. Graficar las regiones críticas:

Bilateral H1 :

- T (a/2; n1+n2-2) T (a/2; n1+n2-2)

Unilateral
Izquierda H1 :

-T (a; n1+n2-2)

UPCPC
MA44 Estadística 156

Unilateral
H1 :
Derecha

T (a; n1+n2-2)

5. Decisión: Rechazar Ho o No rechazar Ho

6. Concluir

Caso 2: Varianzas poblacionales desconocidas y diferentes (Heterogéneas)

1. Planteamiento de las hipótesis

Unilateral izquierda Bilateral Unilateral derecha


𝐻0 : 𝜇1 − 𝜇2 ≥ 𝑘 𝐻0 : 𝜇1 − 𝜇2 = 𝑘 𝐻0 : 𝜇1 − 𝜇2 ≤ 𝑘
𝐻1 : 𝜇1 − 𝜇2 < 𝑘 𝐻1 : 𝜇1 − 𝜇2 ≠ 𝑘 𝐻1 : 𝜇1 − 𝜇2 > 𝑘
2. Fijar el nivel de significación: α

3. Estadístico de la prueba:
2
𝑆2 𝑆2
(𝑥1 −𝑥2)−𝑘 (𝑛1 +𝑛2 ) Redondeo a
1 2
𝑡𝑐 = 𝜐= 2 2 menos
𝑆2 𝑆2
𝑆2 2
1 + 𝑆2 (𝑛1 ) (𝑛2 )
√ 1 2
𝑛 1 𝑛2 +
(𝑛1 −1) (𝑛2−1)

El valor de  debe ser entero pues son grados de libertad, si se obtiene un valor decimal se
deberá redondear al entero menor del número obtenido. Por ejemplo, si = 18,1260827 18

4. Graficar las regiones críticas:

Bilateral

H1 :

UPCPC
MA44 Estadística 157

-T (a/2; v) T (a/2; v)

Unilateral
Izquierda H1 :

-T (a; v)

Unilateral
Derecha

T (a; v)

5. Decisión: Rechazar Ho o No rechazar Ho

6. Concluir

Ejemplo

El tiempo de exposición, en minutos, de un metal con una sustancia química hasta lograr un
adherido perfecto es parte de un proceso de producción. Se considera que el menor tiempo de
exposición es mejor. Como parte de la mejora del proceso se somete a prueba dos
procedimientos y se mide el tiempo de exposición para dos muestras independientes.

Tamaño de muestra Promedio Desviación estándar


Procedimiento A 31 12.97 4.25
Procedimiento B 25 11.99 2.47

UPCPC
MA44 Estadística 158

a. Asumiendo que los tiempos de exposición tienen distribución normal, ¿se puede afirmar que
hay diferencia en la variación de los tiempos? Use un nivel de significación del 5%.

X: tiempo de exposición (minutos)


Poblaciones: Procedimiento A y procedimiento D
Parámetro: Varianzas 𝝈𝟐

- Planteamiento de hipótesis
𝐻0 : 𝜎12 = 𝜎22
{
𝐻1 : 𝜎12 ≠ 𝜎22

- Fijar el nivel de significación: 0.05

- Estadístico de la prueba:

b. Asumiendo que los tiempos de exposición tienen distribución normal y usando un nivel de
significación del 5%, ¿recomendaría el procedimiento B?

UPCPC
MA44 Estadística 159

Ejercicio

1. Los siguientes datos corresponden a la resistencia a la compresión a los 28 días, en kg/cm 2,


reportados por dos laboratorios:

Laboratorio 1 287,0 238,2 314,3 365,9 362,0 388,7 292,9 290,3


Laboratorio 2 306,0 338,0 349,4 307,4 316,2 326,9
Con 5% de nivel de significación, ¿los laboratorios reportan resultados en promedio
similares? Asuma poblaciones normales.

X: resistencia a la compresión, en kg/cm2


Poblaciones: Lab1 y Lab2

UPCPC
MA44 Estadística 160

2. La exactitud obtenida en mediciones con GPS depende del equipo receptor. Uno de los
fabricantes de receptores está realizando un estudio para comparar la exactitud de dos
modelos, GPSMAP (1) y Oregón (2). Según información del departamento de control de
calidad, la exactitud del modelo GPSMAP es menor que la de Oregón, por lo cual se sugiere
dejar de fabricarla. El jefe de producción selecciona al azar dos muestras de receptores de
ambos modelos con la finalidad de realizar la prueba correspondiente y registra la exactitud,
en mm, obtenida por ambos receptores. Considerando que la exactitud se distribuye
normalmente y con un nivel de significación del 4%, ¿la empresa debe dejar de fabricar el
modelo GPSMAP.

3. La empresa de Ingeniería de Proyectos Y&F pertenece al rubro de la construcción.


Actualmente, su mayor fuerza de trabajo se encuentra en la minería. Para el proyecto
realizado a una empresa minera del departamento de Ancash, se tuvo como principal tarea
el movimiento de tierras, contando con diversos equipos. Ante ello, es evidente que el
soporte de mantenimiento que necesita esta división es elemental para la eficiencia del
trabajo. Mauro, jefe del área de mantenimiento enviará personal de la zona norte a la zona
centro cuando los costos de mano de obra en la zona centro superen a los costos en la zona
norte. Para tomar una decisión, use un nivel de significación del 4%. Suponga que los costos
en ambas zonas se distribuyen normalmente y asuma que las varianzas poblacionales son
desconocidas y homogéneas

Costo de mano de obra en la zona centro


2506,46 2563,99 2501,06 2581,49 2730,66 2544,64 2534,54 2666,93

Costo de mano de obra en la zona norte


Tamaño de muestra Media Desviación estándar
10 2484,5 55,5

4. Un componente de los satélites son los paneles solares. La compañía INTELSAT está
probando dos tipos de paneles solares: el EQM y el EM3, los cuales deben pasar un estricto
control de calidad. Según información del departamento de calidad si la potencia de los
paneles solares EQM supera en más de 2 Kw (K=2) a los de EM3, se sugiere dejar de fabricar
UPCPC
MA44 Estadística 161

el modelo EM3. El jefe de producción selecciona al azar dos muestras de paneles de ambos
modelos y registra las potencias de estos. A continuación, se presenta la siguiente
información:

Variable Tamaño de muestra Promedio Desviación estándar


Panel EQM (1) 16 27,21 1,620
Panel EM3 (2) 21 23,63 3,490

Considerando que la potencia se distribuye normalmente, con un nivel de significación del


5%, ¿se debe dejar de fabricar el modelo EM3?

UPCPC
MA44 Estadística 162

Unidad 5. Técnicas estadísticas: Análisis de


varianza, análisis de regresión y correlación

a. Diseño de experimentos
Un experimento diseñado es una prueba o serie de pruebas en las cuales se inducen cambios
deliberados en las variables de entrada (factores controlables) de un proceso o sistema, de
manera que sea posible observar e identificar las causas de los cambios en la variable de salida
(variable respuesta).

Conceptos generales

Factor: Variable independiente que afecta los resultados del experimento: controlables o
no controlables. En un experimento se puede evaluar uno o más factores.
Tratamientos: Un tratamiento corresponde a los niveles de un factor o a la combinación de
los niveles de dos o más factores. Es un conjunto de procedimientos cuyo efecto sobre la
variable respuesta nos interesa estudiar. Su efecto se mide y se compara con otros
tratamientos.
Variable respuesta: Es la variable en la cual se evaluarán los efectos de los tratamientos.
Unidad experimental: Es la unidad (sujeto u objeto) sobre el cual se le aplica un tratamiento.

Ejemplo

El Gerente de una compañía dedicada a ensamblar piezas de equipos electrónicos, realizó un


estudio con el fin de comparar la eficacia de 3 programas de capacitación, A, B y C. Para ello se
asignaron al azar quince empleados, cinco a cada uno de los tres programas. Después de
terminado los cursos de capacitación se registró el tiempo, en minutos, que les tomó ensamblar
las piezas en los equipos electrónicos.

Complete lo solicitado:

UPCPC
MA44 Estadística 163

Variable respuesta Tiempo, en minutos, que tomó ensamblar las piezas en los
equipos electrónicos.
Factor Programas de capacitación

Tratamientos Capacitación A, B y C.

Unidad experimental Un trabajador

Diseño completamente al azar (DCA)


Suponga que se cuenta con los resultados de k muestras aleatorias independientes, cada una
de tamaño ni, obtenidas desde k diferentes poblaciones y se desea probar la hipótesis de que
las medias de estas k poblaciones son todas iguales.
Las poblaciones que se desea comparar suelen ser producto de la aplicación de distintos
tratamientos a ciertas unidades de análisis.
Considere el caso en el que se desea comparar el efecto de cinco programas de incentivos en la
productividad de los trabajadores.
En este caso:
los cinco programas de incentivos serían los cinco tratamientos aplicados (los cuales definen
las cinco poblaciones que se van a comparar)
la unidad de análisis sería un trabajador (quien recibe el tratamiento).

Los datos para analizar pueden arreglarse en una tabla como la que se muestra a continuación:
Tratamientos
Repeticiones 1 2 … i … k
1 Y11 Y21 … Yi1 … Yk1
2 Y12 Y22 … Yi2 … Yk2
3 Y13 Y23 … Yi3 … Yk3
… … … … … …
j Y1j Y2j … Yij … Ykj
… … … … … … …
ni Y1 n1 Y2 n2 … Yi ni … Yk nk
Total Y1. Y2. … Yi. … Yk.

Para probar la hipótesis de que las muestras se obtuvieron de k poblaciones con medias iguales
se harán varias suposiciones. Con más precisión, se supondrá que las poblaciones son normales
y que tienen varianzas iguales.

UPCPC
MA44 Estadística 164

Supuesto de homogeneidad de varianzas

H0:  1 =  2 =  3 =  4 (esto es, la varianza es la misma en las cuatro sucursales)


2 2 2 2

H1: Al menos una varianza es diferente.

Test for Equal Variances for Depósitos

Bartlett's Test

1 Test Statistic 0.19


P-Value 0.980
Levene's Test
Test Statistic 0.04
P-Value 0.988
2
Sucursal

0.5 1.0 1.5 2.0 2.5 3.0


95% Bonferroni Confidence Intervals for StDevs

Con un p valor de 0,988, el resultado de esta prueba indica que no hay suficiente evidencia
estadística para rechazar el supuesto de homogeneidad de varianzas al 5% de nivel de
significancia.

Supuesto de normalidad de los errores

H0: Los errores del modelo tienen distribución normal.


H1: Los errores del modelo no tienen distribución normal.

Probability Plot of RESI1


Normal
99
Mean 5.551115E-17
StDev 0.9708
95 N 28
KS 0.081
90
P-Value >0.150
80
70
Percent

60
50
40
30
20

10
5

1
-2 -1 0 1 2
RESI1

UPCPC
MA44 Estadística 165

Con un p valor de 0,150, el resultado de esta prueba indica que no hay suficiente evidencia
estadística para rechazar el supuesto de normalidad al 5% de nivel de significancia.

El modelo para este diseño es el siguiente:

y ij =  +  i +  ij para i = 1, 2, ...,k ; j = 1, 2, ..., ni

donde:
yij
: valor observado del i- ésimo tratamiento en la j-ésima repetición
 : Media poblacional
i : Efecto del i-ésimo tratamiento
 ij : Error experimental asociado a la observación yij, donde  ij ~ N(0,  2 )

Ejemplo:

Una importante compañía de construcciones desea comparar tres marcas de taladros para
determinar cuánto tiempo pasa antes de necesitar una reparación; si los tiempos de vida de
los taladros de cada marca se distribuyen normalmente. ¿Las marcas de taladro tienen un
tiempo de vida útil promedio similar a las otras marcas antes de requerir una reparación?
Un ingeniero civil residente de una obra desea evaluar el efecto que tiene las técnicas de
mezclado de concreto sobre la resistencia (kg/cm2) a la compresión. Para ello evalúa cuatro
técnicas diferentes y para realizar la prueba produce especímenes de concreto. ¿La
resistencia promedio a la compresión es la misma para cada técnica de mezclado?
Suponga que una empresa constructora brinda capacitación con diferentes métodos a sus
operarios. ¿El rendimiento promedio de los operarios en la empresa es el mismo según los
métodos de adiestramiento recibido por el operario?

UPCPC
MA44 Estadística 166

Una importante compañía de construcciones desea comparar tres marcas de camiones


antes de ordenar toda una nueva flota de una clase de camión. ¿Los costos medios de
operación por kilómetro de cada camión es el mismo para cada marca de camión?

Análisis de la varianza

El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar tres o más
medias. Se desea medir el efecto del factor en estudio (variable independiente de naturaleza
cualitativa o cuantitativa) sobre la variable respuesta (variable dependiente de naturaleza
cuantitativa).

En un DCA los tratamientos se asignan aleatoriamente a las unidades experimentales.


Hay k poblaciones (k tratamientos) y se seleccionan k muestras aleatorias independientes,
una de cada población.
Esta técnica estadística permite descomponer la variabilidad total de los resultados de un
experimento en sus distintas fuentes (tratamientos, error experimental), con la finalidad de
compararlas e identificar su importancia relativa en la explicación de la variación total.

Tabla del ANOVA o ANVA

Fuente de
Grados de libertad Suma de cuadrados Cuadrado medio Fc
variación
k
yi2• y•2•

𝑆𝑀𝑇𝑅
Tratamientos k–1 SCTR = − 𝐶𝑀𝑇𝑅 =
i =1 ni n• 𝑘−1
𝑆CE CMTR
Error n. – k SCE = SCT − SCTR 𝐶𝑀𝐸 = CME
𝑛• − 𝑘
k n
y •2•
Total n. – 1 SCT = 
i =1 j =1
y ij2 −
n•

Asumiendo el cumplimiento de los supuestos antes mencionados, y que en realidad no hay


diferencia entre los tratamientos, la cantidad Fc del cuadro de análisis de varianza seguiría una
distribución F con los grados de libertad del tratamiento y con los grados de libertad del error.
Entonces, se puede utilizar esta distribución para evaluar la hipótesis nula de que no hay
diferencias entre las medias de los tratamientos.

UPCPC
MA44 Estadística 167

Hipótesis estadística

El factor en estudio no
Ho: 1= 2=…= K No hay diferencia en las
afecta a la variable
medias poblacionales
respuesta
H1: Al menos un i es Hay diferencia en las medias El factor en estudio afecta a
diferente a los demás poblacionales la variable respuesta

Paso 1: Formular la hipótesis de trabajo

Ho: A = B =…= K
H1: Al menos un i es diferente a los demás

Paso 2: Establecer el nivel de significación

Paso 3: Estadístico de Prueba

𝐂𝐌𝐓𝐑
Fc = 𝐂𝐌𝐄

Paso 4: Criterio de decisión

Si Fc > Fcrit(;gl tratamiento, gl error) → Se rechaza Ho

Paso 5: Conclusión

Ejemplo

La gerente de mercadeo de un banco planea poner en marcha cierto tipo de promociones para
atraer nuevos clientes en cuatro sucursales del banco. Ella está convencida que diferentes tipos
de promociones atraerán a personas de diferentes grupos de ingreso, por lo que, de haber
diferencias entre los ingresos medios de los clientes de cada sucursal, se optará por un
programa de promociones distinto para cada una.
Considere a los montos de los depósitos, en miles de soles, como una medida representativa de
los ingresos de los clientes. Se presentan datos para una muestra de siete depósitos de cada
sucursal ¿Debe la gerente optar por un programa de promociones distinto para cada sucursal?
Evalúe esta posibilidad con un nivel de significación del 5%.

Identifique:

Variable respuesta

UPCPC
MA44 Estadística 168

Factor

Tratamientos

Unidad experimental

Sucursal 1 Sucursal 2 Sucursal 3 Sucursal 4


Depósito (Tratamiento 1) (Tratamiento 2) (Tratamiento 3) (Tratamiento 4)
1 y11 = 5,3 y21 = 3,3 y31 = 3,6 y41 = 4,3
2 y12 = 2,6 y22 = 4,6 y32 = 2,8 y42 = 2,5
3 y13 = 3,6 y23= 2,1 y33 = 4,5 y43 = 1,8
4 y14 = 3,8 y24 = 3,5 y34 = 3,8 y44 = 3,0
5 y15 = 2,7 y25 = 5,0 y35 = 1,9 y45 = 3,9
6 y16 = 5,1 y26 = 2,8 y36 = 4,1 y46 = 3,5
7 y17 = 4,2 y27 = 2,5 y37 = 5,1 y47 = 4,1
Total yi. y1. = 27,3 y2. = 23,8 y3. = 25,8 y4. = 23,1

Los cálculos para obtener las sumas de cuadrados son:


2
 k =4 7 
(y..)2

  y ij 
 2
=  = (100)
i =1 j =1
• TC = k =4
= 357 ,1429
n. 7+7+7+7
 n.
i =1
k =4 7
• SCT =  y 2
ij −
y•2•
n•
( )
= 5,32 + 2,62 + . . . + 4 ,12 − (357 ,1429 ) = 27,0171
i =1 j =1

k =4
y i2• y•2•  27,32 23,82 25,82 23,12 
• SCTR = 
i =1

ni n•  7
= +
7
+
7
+
7 
 − (357 ,1429 ) = 1,568

• SCE = SCT − SCTR = 27,0171 − 1,568 = 25,4486

La tabla del análisis de varianza:

Fuente de Grados de Suma de Cuadrados Fcalculado Fcritico


variación libertad cuadrados medio
1,569 0 ,523
Tratamientos k–1=4–1=3 SCTR =1,569 = 0,523 = 0 ,49 3,01
3 1,060
n. – k = 28 – 4 = 25,449
Error SCE =25,449 = 1,060
24 24
n. – 1 = 28 – 1 =
Total SCT = 27,017
27

UPCPC
MA44 Estadística 169

Hipótesis estadística

El factor en estudio no
Ho: 1= 2=…= K No hay diferencia en las
afecta a la variable
medias poblacionales
respuesta
H1: Al menos un i es diferente Hay diferencia en las El factor en estudio afecta a
a los demás medias poblacionales la variable respuesta

Paso 1: Formular la hipótesis de trabajo

Ho: A = B = C
H1: Al menos un i es diferente a los demás

Paso 2: Establecer el nivel de significación

 = 0,05

Paso 3: Estadístico de Prueba

Fc = 0,49

Paso 4: Criterio de decisión

Fc = 0,49 < Fcrit = 3,01 → NO se rechaza Ho

Paso 5: Conclusión: Al 5% de significación, no es posible afirmar que al menos un depósito


promedio sea diferente a los demás.

Método de comparaciones múltiples: Prueba de Tukey-Kramer

Se supone que el experimentador tiene a su disposición mediciones relativas a varios


tratamientos. El análisis de varianza indica si hay evidencias de que al menos una de las medias
sea diferente o no. Cuando se rechaza la hipótesis nula, el análisis de varianza no revela cuál o
cuáles de las medias son significativamente diferentes; en estos casos se deben utilizar otras
pruebas estadísticas.

Cuando el experimentador desea determinar todos los pares de medias que se puede concluir
que difieren de otro (µi versus µj) se utilizan las pruebas de comparaciones múltiples, como la
de Tukey - Kramer. Con esta prueba, con el fin de probar todas las hipótesis nulas simultaneas

H0: µi - µj = 0
H0: µi - µj ≠ 0

UPCPC
MA44 Estadística 170

El estadístico de prueba es:


𝑥̄ 𝑖. − 𝑥̄𝑗.

𝐶𝑀𝐸 1 1
√ 2 (𝑟 + 𝑟 )
𝑖 𝑗

donde:

CME es el cuadrado medio del error del análisis de varianza


ri y rj son los tamaños de muestra de los tratamientos i y j, respectivamente.

Ejemplo

Los siguientes datos corresponden a las mediciones de los pesos de recubrimiento de estaño
de discos por cuatro laboratorios diferentes.

Laboratorio A Laboratorio B Laboratorio C Laboratorio D


0,25 0,18 0,19 0,23
0,33 0,28 0,25 0,30
0,22 0,21 0,27 0,28
0,30 0,23 0,24 0,28
0,27 0,25 0,18 0,24
0,28 0,20 0,26 0,34
0,32 0,27 0,28 0,20
0,24 0,19 0,24 0,18
0,31 0,24 0,25 0,24
0,26 0,22 0,20 0,28
0,20 0,29 0,21 0,22
0,28 0,16 0,19 0,21
3,26 2,72 2,76 3,00

Determine qué medias difieren de las otras. Use un nivel de significación  = 0,05 .

Solución

La tabla del análisis de varianza es:

Source DF Seq SS Adj SS Adj MS F P


Laboratorio 3 0.015558 0.015558 0.005186 3.13 0.035
Error 44 0.072833 0.072833 0.001655
Total 47 0.088392

Estos resultados pueden resumirse en un diagrama de líneas como el que se muestra a


continuación. La idea es que los tratamientos unidos por una línea no presentan diferencias
significativas.

UPCPC
MA44 Estadística 171

µB µC µD µA
0,227 0,230 0,250 0,272

Factor N Mean Grouping


Lab_A 12 0.2717 A
Lab_D 12 0.2500 A B
Lab_C 12 0.2300 A B
Lab_B 12 0.2267 B

Las medias que no comparten una letra son significativamente


diferentes.

Ejemplo

Una importante compañía de construcciones desea comparar tres marcas de taladros para
determinar cuánto tiempo pasa antes de necesitar una reparación; si los tiempos de vida de
los taladros de cada marca se distribuyen normalmente. Los datos de los tiempos de vida útil
(decenas de horas) para cada marca se encuentran en la siguiente tabla.

Marca A Marca B Marca C


6 10 3
2 9 2
4 8 5
1 6 4
7
Variable respuesta Tiempo de vida útil, en decenas de horas.

Factor Marcas de taladros

Tratamientos Marca A, B y C

Unidad experimental Un taladro

Parámetro: Promedio
Yij: es el tiempo de vida útil del jésimo taladro perteneciente a la iésima marca

UPCPC
MA44 Estadística 172

a. ¿Sugieren los datos que el tiempo promedio de vida es el mismo para cada marca de taladro
antes de una reparación? Utilice nivel de significación de 5%.
b. Si la prueba resulta significativa, ¿qué marca de taladro recomendaría utilizar?

Solución

a. ¿Sugieren los datos que el tiempo promedio de vida es el mismo para cada marca de taladro
antes de una reparación? Utilice nivel de significación de 5%.
Paso 1: Formular la hipótesis de trabajo

Ho: A = B = C
H1: Al menos un i es diferente a los demás.

Paso 2: Establecer el nivel de significación

 = 0,05

Paso 3: Estadístico de Prueba

Fc = 7,037

Paso 4: Criterio de decisión


Si Fc > Fcrit(;gl tratamiento, gl error) → Se rechaza Ho

Fc = 7,037 > Fcrit(2,10; 0,05) = 4,10 → Se rechaza Ho

Paso 5: Conclusión

Al 5% de significación, existe evidencia estadística para afirmar que el tiempo promedio de


vida es diferente en al menos una marca de taladro antes de una reparación.

a. Si la prueba resulta significativa, ¿qué marca de taladro recomendaría utilizar?

Factor N Mean Grouping


Marca B 4 8.250 A
Marca A 5 4.00 B
Marca C 4 3.500 B

Las medias que no comparten una letra son significativamente


diferentes.

Luego, ordenando las medias en forma ascendente según las medias muestrales, y colocando
una línea debajo de las medias no se ha encontrado diferencias significativas entre las marcas

UPCPC
MA44 Estadística 173

de taladros A y C, la marca de taladro B presenta un mayor tiempo promedio de vida antes de


la reparación. Se tiene:
µC µA µB

Conclusión: Se recomienda utilizar la marca de taladro B.

Ejercicio

1. Un ingeniero civil residente de una obra desea evaluar el efecto que tienen las técnicas de
mezclado de concreto sobre la resistencia (kg/cm2) a la compresión. Para ello evalúa cuatro
técnicas diferentes y para realizar la prueba produce especímenes de concreto. Si la
resistencia a la compresión del concreto de cada técnica se distribuye normalmente y tienen
la misma varianza. Los datos recabados son los siguientes:

Técnica 1 Técnica 2 Técnica 3 Técnica 4


2765 3200 2800 2600
2665 3300 3150 2700
2865 2975 2885 2600
2890 3150 2850 2765

Factor N Mean Grouping


Técnica 2 4 3156.3 A
Técnica 3 4 2921.3 A B
Técnica 1 4 2796.3 B
Técnica 4 4 2666.3 B

Las medias que no comparten una letra son significativamente


diferentes.

Variable respuesta La resistencia a la compresión(kg/m^2)

Factor Técnicas de tratamiento

Tratamientos Técnicas 1, 2, 3 y4

Unidad experimental Un especímen de concreto

UPCPC
MA44 Estadística 174

a. Al 5% de significación, ¿al menos una técnica de mezclado influye en la resistencia a la


compresión del concreto?

Fuente de Grados de Suma de


Cuadrado medio Fc
variación libertad cuadrados
522475
Tratamiento 3 174158.3333
180275
error 12 15022.91667 11.5928443
Total 15

rechaza Ho
Paso 5: Conclusión

b. Si la prueba resulta significativa, ¿qué técnica recomendaría utilizar?

2. Una compañía que produce ladrillos efectuó un experimento para determinar si cuatro
temperaturas (en °F) de cocción específicas afectan la densidad (gr/cm3) de cierto tipo de
ladrillo. La densidad de los ladrillos para cada temperatura se distribuye normalmente y
tienen la misma varianza.

Temperaturas
100°F (1) 125°F (2) 150°F (3) 175°F (4)
19,9 21,7 20,9 21,8
19,7 21,4 20,8 21,9
19,8 21,5 20,8 21,7
19,7 21,5 20,6 21,6

UPCPC
MA44 Estadística 175

20,0 21,7

Factor N Mean Grouping


175°F (4) 5 21.7400 A
125°F (2) 4 21.5250 A
150°F (3) 4 20.7750 B
100°F (1) 5 19.8200 C

Las medias que no comparten una letra son significativamente


diferentes.

a. Complete el siguiente cuadro e interprete Y11:

Variable respuesta

Factor

Tratamientos

Unidad experimental

Interprete Y23 = …………………….

b. Utilice nivel de significación de 5% para probar si al menos una temperatura de cocción


influye en la densidad de los ladrillos.

Fuente de
Grados de libertad Suma de cuadrados Cuadrado medio Fc
variación
Tratamientos

Error

Total

𝐲𝟐
TC =− 𝐧•• =

UPCPC
MA44 Estadística 176

Paso 1: Formular la hipótesis de trabajo

Ho:
H1:

Paso 2: Establecer el nivel de significación


=

Paso 3: Estadístico de Prueba

Fc =

Paso 4: Criterio de decisión

Como Fc = …………… …… Fcrit (…………; ………., ……….) = ……….….. →

Paso 5: Conclusión

a. Si la prueba resulta significativa, ¿qué temperatura recomendaría utilizar?

Factor N Mean Grouping


175°F (4) 5 21.7400 A
125°F (2) 4 21.5250 A
150°F (3) 4 20.7750 B
100°F (1) 5 19.8200 C

Ejercicios

1. Importación Bombardera desea determinar si el tipo de chip (A, B, C) que tienen laptops
que ellos importan influye en el tiempo de respuesta (microsegundos). Si el tiempo de
respuesta para cada tipo de chip se distribuye normalmente y tienen la misma varianza.
Para esto, prueba 5 laptops con cada chip. A continuación, se muestran los resultados, en
microsegundos:

Tipo A Tipo B Tipo C


18 24 17
23 25 14

UPCPC
MA44 Estadística 177

21 30 19
18 27 20
24 38 17

Factor N Mean Grouping


Tipo B 5 28.80 A
Tipo A 5 20.80 B
Tipo C 5 17.40 B

Las medias que no comparten una letra son significativamente


diferentes.
a. Al nivel de significancia del 5%, ¿la importadora puede concluir que hay diferencia en los
tiempos promedio de respuesta según el tipo de chip utilizado?
b. Si la prueba resulta significativa, ¿qué tipo de chip recomendaría utilizar?

2. Un empresario debe elegir la alternativa más eficiente para fabricar un mismo producto. Se
analiza el costo por unidad (en soles) de tres alternativas. Si el costo por unidad para cada
alternativa se distribuye normalmente y tienen la misma varianza, ¿qué alternativa deberá
elegirse?

Alternativa A Alternativa B Alternativa C


9,35 8,35 9,35
8,35 8,35 10,35
7,35 7,35 9,35
8,35 7,35 8,35
9,35 8,35 9,35
7,35 7,35 9,35

Factor N Mean Grouping


Alternativa C 6 9.350 A
Alternativa A 6 8.350 A B
Alternativa B 6 7.850 B
Las medias que no comparten una letra son significativamente
diferentes.

a. Pruebe si existe alguna diferencia significativa en los costos unitarios de las tres
alternativas de fabricación. Utilice nivel de significación de 5%.
b. Si existen diferencias, ¿entre qué grupos están las diferencias? Utilice nivel de
significación de 5%.

3. Para determinar si la resistencia a la ruptura (libras/ pulg2) difiere según el tipo de


estructuras, se tomó al azar una muestra de zonas con estructura tipo cimientos, zonas con

UPCPC
MA44 Estadística 178

estructura tipo terraplenes y zonas con estructura tipo excavación. La resistencia a la


ruptura (libras/ pulg2) se presenta en el siguiente cuadro:

Cimiento Terraplenes Excavación


2050 2200 2300
2100 2230 2180
2100 2150 2200
2100 2150 2200
2150 2200
8350 10880 11080

Complete la siguiente información:

Variable respuesta

Factor

Tratamientos

Unidad experimental

A continuación, se muestra la tabla del ANVA con algunos datos faltantes. Asimismo, se
muestran los resultados del análisis de comparaciones múltiples de Tukey.

Tabla de análisis de varianza ANVA


Fuentes de variación GL Suma de Cuadrado F calculado
cuadrados medios
Tipo de estructura 2

Error

Total 13 54150

Tipo_estructura N Media Agrupación


Excavación 5 2216.0 A
Terraplenes 5 2176.0 A
Cimiento 4 2087.5 B

Las medias que no comparten una letra son significativamente


diferentes.

Explique y fundamente, con un nivel de significación del 5%, ¿con qué tipo de estructura se
debería construir la represa?

UPCPC
MA44 Estadística 179

5.2 Regresión lineal simple


¿La velocidad de transferencia de datos de un disco duro depende de la velocidad en que
giran los discos del plato del disco duro o de su capacidad de almacenamiento? ¿El tiempo
de ejecución de una obra civil depende del número de trabajadores o del índice de
automatización? ¿El tiempo de falla de los equipos electrónicos dependerá de la resistencia
de los resistores? ¿el sueldo dependerá del grado de instrucción? ¿el tiempo de
procesamiento de trabajos estará relacionado con el número de trabajos por día? ¿La
temperatura está relacionada con la presión sobre el rendimiento de un producto químico?
Estas preguntas surgen cuando queremos estudiar dos variables de una población con el fin
de examinar la relación existente entre ellas. Las dos variables en estudio son variables
cuantitativas que nos permitirá construir una ecuación lineal que modela la relación
existente entre estas dos variables.
En el análisis de regresión la ecuación lineal puede usarse para estimar o predecir los valores
de una variable dependiente, llamada Y, cuando se conocen o se suponen conocidos los
valores de otra variable, variable independiente, llamada X.
El análisis de correlación permite determinar el grado de relación lineal existente entre dos
variables. Es útil en un trabajo exploratorio cuando el investigador desea encontrar el grado
o la fuerza de esa relación.

¿Qué es el análisis de
regresión lineal?

Es modelar la dependencia de la variable Y en función de


la variable X a través de la ecuación de una recta

Yi = 0 + 1 X i + ei i = 1, 2,…, n

Variable respuesta Variable predictora


o dependiente o independiente
Diagrama de dispersión o gráfico del plot

El primer paso en el análisis de regresión es registrar simultáneamente los valores de las dos
variables asociadas (X, Y) en una gráfica bidimensional para ver si existe una tendencia lineal
que podría explicar la relación entre estas dos variables

UPCPC
MA44 Estadística 180
X vs Y
X vs Y
1600
9
Modelo lineal
1400
8
1200
Buen ajuste
7 1000

800

Y
Y
6
600

5 400 Cuando X crece Y


200 decrece
4
0
10 15 20 25 300,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6
X X

X vs Y
60 X vs Y
140

130
50
120

110

40 100
Y

Y
90

80
30
70

60

50
20
20 25 30 35 40 45 50200 400 600 800 1000 1200
X X

Método de los mínimos cuadrados

Mediante este método es posible seleccionar la recta que se ajuste mejor a los datos. La
recta resultante tiene dos características importantes:
• La suma de las desviaciones verticales de los puntos con relación a la recta es cero; y
• La suma de los cuadrados de las desviaciones es mínima (es decir, ninguna otra recta daría
una menor suma de cuadrados de tales desviaciones).
n
Es decir: (y
i =1
i − yˆ i ) 2 es mínima

Los valores de 0 y 1 que minimizan la suma de los cuadrados de las desviaciones, son las
soluciones de las llamadas ecuaciones normales de la recta de regresión:
n
 n 
y
i =1
= nˆ 0 + ˆ1   xi 
i
 i =1 
n
 n
 ˆ  n 2

i =1
x y
i i = ˆ 0  i  + 1   xi 
 x
 i =1   i =1 

Este método nos permite estimar los parámetros del modelo de regresión. Resolviendo las
ecuaciones simultáneas para  0 y  1 tenemos:

UPCPC
MA44 Estadística 181

 n
  n
 n

n
  x y  −   x   y 
i i i i
y ˆ0 = y − ˆ1 x
ˆ1 =  i =1 i =1 i =1
2
 n
  n

n



i =1
xi2  − 
 
 
 x 
i =1
i

Recta o ecuación de regresión

La ecuación lineal es: Yi = 0 + 1 X i + ei

Modelo muestral: 𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 → 𝑦̂ = 𝑏0 ± 𝑏1 𝑥

Donde:
• ˆ1 es la pendiente de la recta o coeficiente de regresión

• ̂ 0 es la ordenada en el origen o intercepto de la recta con eje y

Ejemplo

Y: Ingreso mensual (soles)


X: Experiencia profesional (años)

• Relación: Directa
• Pendiente: Positiva
A mayor experiencia profesional, mayor ingreso
Interpretación de los coeficientes:
b0 = 2500 → x=0 → Cuando no se tenga experiencia profesional, el valor del ingreso mensual
será 2500 soles.
b1 = 450 → Por cada año de experiencia profesional, el valor del ingreso mensual aumentará
en 450 soles.
x = 1 → y = 2950
x = 3 → y = 3400

UPCPC
MA44 Estadística 182

Ejercicio

Se desea modelar la vida útil (en años) de un satélite en función de la cantidad de combustible
(en kg) requerido para moverlo de su posición orbital, usando un modelo lineal. Los datos se
muestran a continuación:

Vida útil (años) 10,8 11,5 12 12,4 13,2 13,7 13,9 14,1 14,8 15
Cantidad de combustible (kg) 150,4 156,3 162,5 165,8 172,5 168,9 184,5 185,9 187,2 199,4

RELACION ENTRE LA VIDA UTIL Y LA CANTIDAD DE COMBUSTIBLE


15

14
Vida útil

13

12

11

150 160 170 180 190 200


Cantidad de combustible

a. Comente el diagrama de dispersión de estas variables.

b. Calcule e interprete los coeficientes de regresión estimados del ejemplo anterior,


considerando la siguiente información:
X
Y
N° Cantidad de xy x2 y2
Vida útil
combustible
1 150.4 10.8 1624,32 22620,16 116,64
2 156.3 11.5 1797,45 24429,69 132,25
3 162.5 12 1950 26406,25 144
4 165.8 12.4 2055,92 27489,64 153,76
5 172.5 13.2 2277 29756,25 174,24
6 168.9 13.7 2313,93 28527,21 187,69
7 184.5 13.9 2564,55 34040,25 193,21
8 185.9 14.1 2621,19 34558,81 198,81
9 187.2 14.8 2770,56 35043,84 219,04
10 199.4 15 2991 39760,36 225
Total 1733,4 131,4 22965,92 302632,46 1744,64

UPCPC
MA44 Estadística 183

Interprete los valores de los coeficientes de regresión


𝑦̂ = 𝑏0 ± 𝑏1 𝑥
Y= -1.996 + 0.087x

ˆ1 = b1 Por cada kilogramo de combustible, la vida útil aumenta en 0.087 por año

̂ 0 = bo No tiene (si b0 es (–) no tiene interpretación)

Análisis de varianza

El análisis de varianza es la descomposición de la variación total en sus fuentes de variación:


regresión y error (residual).

Fuente de Grados de Suma de Cuadrado Estadístico de


variación libertad cuadrados medio prueba
Regresión 1 SCReg CMReg (1) Fc = (1) / (2)

Error (residual) n–2 SCE CME (2)

Total n–1 SCTot R2 =


SCReg
 100%
SCTot

 n

2
  n

2

 n

   yi 


 n

  xi 



Donde: SCTot = 


i =1
2
yi −


i =1
n
 , SC Re g = ˆ12 .
 
i =1
xi2 −  i =1
n
  y

 
 
 
SCE = SCTot − SC Re g

La salida que proporciona el Excel es el siguiente:

ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor
libertad cuadrados cuadrados F crítico de F
Regresión 1 16.5077 16.5077 85.9622 0.0000
Residuos 8 1.5363 0.1920
Total 9 18.0440

Coeficientes Error típico Estadístico t Probabilidad


Intercepción -1.9964 1.6384 -1.2185 0.2577
Cantidad de combustible 0.0873 0.0094 9.2716 0.0000

Este análisis permite realizar la prueba de hipótesis para validar el modelo de regresión
obtenido a un nivel de significación α.
UPCPC
MA44 Estadística 184

1. H 0 : 1 = 0
H1 : 1  0

2. Nivel de significancia: α

3. Prueba estadística
CMReg
Fcal =
CMError

4. Criterios de decisión

Si Fcal > Fcrit. (α, 1, n-2) → se rechaza Ho; por lo tanto, el modelo es válido o
ZR.
Si Fcal ≤ Fcrit. (α, 1, n-2) → no se rechaza Ho; el modelo no es válido

α
ZNR

Fcrit=
5. Conclusión
Ejercicio

c. A un nivel de significación del 5%, valide el modelo de regresión lineal del ejercicio anterior.
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados
Promedio de los cuadrados F
Regresión 1 16.50772225 16.50772225 85.96217596
Residuos 8 1.536277747 0.192034718
Total 9 18.044

1. H 0 : 1 = 0
H1 : 1  0

2. α = 0.05

3. Prueba estadística
Fcal= 85.96
Fcri(0.05 ; 1 ; 8) = 5.32 → RH0

UPCPC
MA44 Estadística 185

4. Decisión:

ZR.

α
ZNR

Fcrit=
RH0

5. Conclusión:
Con un nivel de significancia del 5%, el modelo es válido.

Coeficiente de determinación

Es una medida de bondad de ajuste del modelo. Nos indica que tan bueno es el modelo para
explicar el porcentaje de variabilidad de la variable dependiente Y.
El coeficiente de determinación R2 indica el porcentaje de la variabilidad de la variable
dependiente Y que es explicada por el modelo de regresión lineal.
También nos ayuda a saber la precisión con la que se puede predecir o pronosticar el valor
de la variable dependiente, si se conocen los valores de la variable dependiente.
El coeficiente de determinación R2 se calcula de la siguiente manera:

SCReg
R2 =  100%
SCTot

Coeficiente de correlación

El coeficiente de correlación expresa el grado de asociación lineal que existe entre dos
variables X e Y.
Se calcula como la raíz cuadrada del coeficiente de determinación:
 R 2 si ˆ1  0
r=
− R 2 si ˆ  0
1

Si el coeficiente de correlación está cerca de cero entonces indicará que no existe relación
lineal significativa entre las dos variables
Si el coeficiente de correlación se acerca a 1 o a -1 indicará que existe una relación lineal
fuerte pudiendo ser directa o inversa. Valores que se pueden tomar como referencia para
determinar si no existe relación lineal o si existe una relación lineal fuerte, directa o inversa,
se muestra a continuación:

UPCPC
MA44 Estadística 186

Relación Relación
Correlación
lineal No existe lineal Correlación
nula
moderada
fuerte e Relación fuerte y
inversa Lineal directa Correlación
moderada
-1.0 -0.65 -0.2 0.2 0.65 1.0

6.4.2.1.1
Estos valores pueden variar de acuerdo con el campo de estudio.
Ejercicio

Interprete el coeficiente de correlación y del coeficiente de determinación del ejemplo anterior.


S = 0.438218 R-Sq = 91.5% R-Sq(adj) = 90.4%

r2

Ejercicio

Indique qué valor de r2 y r le corresponde a cada gráfico, considerando los siguientes valores: r
= 0,95; r = 0,78 y r = 0,52. Además, indique el tipo de relación entre las variables.

Situación 1
El coeficiente de determinación es r2= 27.04%
El coeficiente de correlación es r= 0.52 por tanto, la relación entre las variables es moderado.
y Directo
Situación 2
El coeficiente de determinación es r2= 90.25%
El coeficiente de correlación es r=0.95, por tanto, la relación entre las variables es fuerte y
Directo

UPCPC
MA44 Estadística 187

Situación 3
El coeficiente de determinación es r2=60.84%
El coeficiente de correlación es r= -0.78 por tanto, la relación entre las variables es Fuerte e
Inverso

Ejercicios

1. Una empresa dedicada a la fabricación de equipos de telecomunicación considera que la vida


útil de los equipos puede estar explicada por la temperatura del ambiente en el que trabaja
mediante una relación lineal. Para encontrar la ecuación de regresión lineal de la vida útil en
función de la temperatura se tomó una muestra de 11 datos, los cuales se muestran en la
tabla siguiente:

Temperatura(ºC) 24 20 18 16 10 12 13 28 16 15 23
Vida útil(en años) 8,0 6,4 5,5 4,6 3,8 3,9 5,6 8,5 6,6 4,5 8,8

a. Comente el diagrama de dispersión de estas variables.

Gráfica de dispersión de Vida útil vs. Temperatura


9

8
Vida útil(en años)

10 15 20 25 30
Temperatura

b. Interprete los coeficientes de regresión estimados.


ˆ1

̂ 0

UPCPC
MA44 Estadística 188

c. Valide el modelo de regresión al 2% de nivel de significación.

d. Interprete el coeficiente de determinación y el coeficiente de correlación.


r2

2. Para la construcción de carreteras que experimentan heladas intensas, es importante que la


densidad del concreto (kg/m2) seleccionado tenga un valor bajo de conductividad térmica
para reducir al mínimo los daños provocados por cambios de temperatura. Por lo tanto, se
desea modelar la conductividad térmica en función de la densidad que posee el concreto.
Por lo tanto, se toman 12 trozos al azar de diferentes densidades de concreto y se registra la
conductividad. Los datos se muestran en la siguiente tabla:

Densidad del
300 400 500 600 700 800 900 1000 1100 1200 1400 1600
concreto
Conductividad
térmica 0.065 0.08 0.095 0.115 0.13 0.15 0.175 0.205 0.23 0.27 0.346 0.436
(watts/metros.Kelvin)

Diagrama de dispersión de Conductividad vs Densidad


0,45

0,40

0,35
Conductividad

0,30

0,25

0,20

0,15

0,10

0,05
200 400 600 800 1000 1200 1400 1600
Densidad

a. Comente el diagrama de dispersión.

UPCPC
MA44 Estadística 189

b. Presente la ecuación de la recta o modelo de regresión estimado.

c. Interprete el valor de la pendiente de la recta.

d. Valide el modelo Use 1% de significancia.

e. Interprete el coeficiente de determinación y correlación.


r2

3. Se desea modelar el tiempo de operación (en horas) en función de la temperatura de un


dispositivo. Para ello se realiza un experimento estadístico, cuyos resultados son los
siguientes:

Temperatura (oC) 18 18 18 22 22 26 30 30 34
Tiempo de operación 1200 1215 1150 1000 974 810 583 612 240

UPCPC
MA44 Estadística 190

Gráfica de dispersión de Tiempo de operación vs. Temperatura (oC)

1200

1000

Tiempo de operación
800

600

400

200
20 24 28 32 36
Temperatura (oC)

a. Comente el diagrama de dispersión.

b. Presente la ecuación de la recta o modelo de regresión estimado.

c. Interprete los valores de los coeficientes de regresión.

d. Valide el modelo Use 5% de significancia.

UPCPC
MA44 Estadística 191

e. Interprete el coeficiente de determinación y correlación.


r2

4. NVZ Import-Export es una empresa proveedora de GPS para automóviles de diferentes


modelos, últimamente ha importado nuevos modelos de GPS que ya están a la venta. El jefe
del departamento de ventas ha implementado charlas motivadoras para sus agentes
vendedores y desea modelar la eficiencia de sus ventas (%) en función de las horas que
asisten mediante una función lineal. Por lo tanto, selecciona aleatoriamente una muestra de
10 agentes vendedores y registra el tiempo acumulado de horas en las que estuvo presente
el agente vendedor en una o más charlas durante el último trimestre y la eficiencia de sus
ventas. Los datos y resultados se muestran a continuación:

Eficiencia en las ventas (%) 47 84 80 46 62 72 52 87 37 68


Tiempo acumulado, en horas 27 45 41 19 35 39 19 49 15 31

a. Presente la ecuación de la recta.


b. Interprete los coeficientes del modelo de regresión estimado.
c. Realice el proceso de validación del modelo, con un nivel de significación de 5%.
d. Interprete el coeficiente de determinación y el de correlación.

UPCPC

También podría gustarte