Está en la página 1de 253

UNA La Molina - Dpto.

de Estadística e Informática Estadística General

CAPÍTULO I

CONCEPTOS BÁSICOS

La Estadística proporciona una serie de métodos y técnicas que permiten analizar


información de las diferentes especialidades como Agronomía, Industrias Alimentarias,
Zootecnia, Economía, etc. con la finalidad de analizarla y tomar decisiones.

Objetivo. Entender conceptos básicos y los alcances de la estadística, que servirán de


base para la comprensión y desarrollo de los capítulos posteriores.

1.1 Definición de Estadística

La Estadística es la ciencia del aprendizaje a partir de los datos y de medición, control y


comunicación de la incertidumbre, proporcionando los medios esenciales para el avance
científico y social.

Los estadísticos proporcionan una guía crucial para determinar qué información es fiable
y que predicciones son confiables. Ayudan a la búsqueda de pistas sobre la solución de
un misterio científico y, a veces a evitar que los investigadores sean engañados por
falsas impresiones.

Fuente: Davidian, M. and Louis, T. Whats is Statistics?. Consultado el 24 de Julio de


2014, página web de la American Statistical Association.
http://www.amstat.org/careers/whatisstatistics.cfm

División de la Estadística

La Estadística puede ser dividida en:

 La Estadística Descriptiva. Parte de la estadística que se ocupa de la clasificación,


descripción, simplificación y presentación de los datos. Comprende el uso de tablas
de frecuencias, gráficos y el cálculo de medidas estadísticas.

 La Estadística Inferencial. Parte de la estadística que se ocupa de la estimación y


prueba de hipótesis de los parámetros de una población, a partir de una muestra
aleatoria extraída de dicha población.

Ejemplo 1
Se ha hecho estudio del medio de transporte que usan los estudiantes de la UMALM.
Para lo cual se tomó una muestra aleatoria de 350 estudiantes.

Se aplicó la Estadística Descriptiva: con la finalidad de organizar y presentar en una


tabla de frecuencias y en forma gráfica los datos recogidos de la encuesta.

Distribución del medio de transporte


Distribución del medio de transporte
que usan los estudiantes
% 60
51.4
50
Medio de
40
transporte Número Porcentaje
28.6
Propia 100 28,6 30

Público 180 51,4 20


11.4
8.6
Privado 30 8,6 10

Bicicleta 40 11,4 00
Propia Público Privado Bicicleta
Total 350 100,0
Fuente: Elaboración propia Fuente: Elaboración propia
1
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Además, se calculó la medida estadística: el gasto promedio por el medio de transporte


usado fue de S/. 35.5 semanal

Se aplica la Estadística Inferencial: se estimó que la proporción de estudiantes de la


UNALM que usan el medio de transporte público es 51.4% y tienen un gasto promedio
de S/. 42.5 semanal. Se desea probar si proporción de estudiantes de la UNALM que
usan el medio de transporte público es mayor al 62.0% y que el gasto promedio es
menor a S/. 42.0.

1.2. Conceptos básicos

1) Población. Es el conjunto de unidades elementales con características similares. El


estudio de toda la población constituye un censo.

Ejemplo 2
1. Todos los ganaderos del valle de Cajamarca.
2. Todos los futbolistas que participarán en el campeonato descentralizado de
fútbol 2018.
3. Todas las semanas de venta en una comercializadora de PC entre el 2010-2017.

2) Unidad Elemental. Es un elemento particular de la población o muestra.

Ejemplo 3
1. Un ganadero del valle de Cajamarca
2. Un futbolista que participará en el campeonato descentralizado de fútbol 2018.
3. Una semana de venta en una comercializadora de PC entre el 2010-2017.

3) Muestra. Es un subconjunto de la población. Al proceso de obtención de una


muestra se le llama “muestreo”. Para que una muestra sea representativa debe
cumplir con las siguientes condiciones:
a) Debe haber sido obtenida al azar.
b) Su tamaño y sus elementos deben haber sido seleccionados aplicando un
método de muestreo.

Ejemplo 4
1. 420 ganaderos del valle de Cajamarca.
2. 380 futbolistas que participarán en el campeonato descentralizado de fútbol
2018.
3. 25 semanas de venta en una comercializadora de PC entre el 2010-2017.

Ejercicio 1. Se desea realizar un estudio sobre el consumo de agua de los estudiantes


de la UNALM matriculados en el ciclo de verano 2017. Para el estudio se obtuvo una
muestra aleatoria de 260 estudiantes. Defina población, unidad elemental y muestra.

2
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 2. El instituto Nacional Agraria e Innovación (INAI), va realizar un estudio de


reforestación en la Selva Central del Perú. Para el estudio se desea evaluar una muestra
de 650 árboles que tengan más de 10 años de edad. Defina población, unidad
elemental y muestra.

4) Variable. Son las características que toman diferentes valores cuando son
evaluadas en las unidades elementales de una población o muestra. Se representan
por las últimas letras mayúsculas del alfabeto, por ejemplo: X, Y, Z, W, P, T, X1, X2,
Y1, etc.

Tipos de Variables
Pueden ser de dos tipos: Cuantitativas y Cualitativas.

Variables Cuantitativas. Son aquellas que se expresan en forma numérica y tiene


sentido realizar operaciones matemáticas con ellas. Pueden ser: Continuas o Discretas.

 Variable Cuantitativa Continua. Son aquellas que pueden tomar cualquier valor
numérico dentro de un intervalo continuo. Se utiliza un instrumento de medición
para generar sus valores: balanza, termómetros, test, escalas, cronómetros,
winchas, etc.

Ejemplo 5
1. Costo de inventario (soles)
2. Longitud del langostino de río (cm)
3. Tiempo para atender un pedido en una pizzería (minutos)

 Variable Cuantitativa Discreta. Son aquellas que cumplen con la condición de


que entre un valor cualesquiera y su consecutivo no es posible que existan valores
intermedios. Generalmente son representados por el conjunto de números enteros.
Las observaciones cuantitativas discretas se registran por conteo.

Ejemplo 6
1. Número de pacientes atendidos cada 15 minutos en el área ambulatoria
2. Número de predios que posee un agricultor de un valle
3. Número de quejas de los clientes de una aseguradora

Variable Cualitativa. Son aquellas que permiten que una unidad elemental pueda ser
clasificada como poseedora o no de cierta cualidad, propiedad o atributo. No tiene
sentido realizar operaciones matemáticas con ellas. Son aquellas cuyos valores posibles
son atributos o categorías. Pueden ser: Nominal o Jerárquica.

 Variable Cualitativa Nominal. Son aquellas cuyos valores (cualidades,


propiedades o atributos) no son factibles de ser clasificados a través de un criterio
de orden o jerarquía. Sus valores posibles no tienen un orden de importancia.

3
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 7
1. Sexo de los estudiantes (Masculino o Femenino)
2. Estado civil de una persona (Soltero, Casado, Divorciado, Viudo o Conviviente)
3. Las zonas de las sucursales de un banco (Sur, Centro o Norte)
4. Los estados del agua (Sólido, Líquido o Gaseoso)

 Variable Cualitativa Jerárquica u Ordinal. Son aquellas donde sí se puede


establecer un criterio de orden o jerarquía entre sus atributos de la variable.

Ejemplo 8
1. Calificación del servicio del comedor de la UNALM (Bueno, Regular o Malo)
2. Nivel de instrucción (Sin instrucción, Primaria, Secundaria o Superior)
3. Nivel socioeconómico de un cliente (Alto, Medio o Bajo)
4. Rango de ingreso familiar (500 - 2500, 2501 – 5000, 5001 – 7500, Más de 7500)

5) Observación. Es el valor posible que toma una variable. A las observaciones se les
suele representar con las letras minúsculas subindicadas, como por ejemplo x i , yi
, zi
Ejemplo 9

1. X = Peso del langostino de río (en gr). Observaciones:


x1  2.5, x2  3.0,.., x10  3.2
2. Y = Calificación de un servicio. Observaciones: y1  Bueno, y2  Re gular , y3  Malo

Ejercicio 3. En un estudio para evaluar la satisfacción de los socios de un club social-


deportivo, se aplicó la siguiente encuesta.

Encuesta de satisfacción
1. Edad
2. ¿Qué tipo de socio es?
1=Principal 2=Asociado 3=Condicionado
3. ¿Cómo encuentra el estado de los campos deportivos?
1=Muy bueno 2=Bueno 3=Regular 4=Malo
4. ¿Con qué frecuencia encuentra libre los campos deportivos?
1=Siempre 2=Casi siempre 3=Raramente 4=Nunca
5. Número de veces que viene al club mensualmente
6. Pago mensual (S/.)

Complete el siguiente cuadro:

Variable Tipo de variable Observación


Edad
Tipo de socio

Estado de los campos


deportivos
Frecuencia que encuentra
libre los campos deportivos
Número de veces que viene
al club mensualmente
Pago mensual

4
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 4. Con la finalidad de establecer una línea base, para evaluar un programa
productivo a los agricultores de la sierra central, se ha aplicado la siguiente encuesta.

Encuesta para la evaluación del programa productivo


1. Nivel tecnológico usado
1=Alto 2=Medio 3=Bajo
2. Usa fungicidas
1=Si 2=No
3. Usa insecticidas
1=Si 2=No
4. Número de meses que está en el programa
5. Tamaño de su predio (has)
6. Ingreso mensual (en soles)

Complete el siguiente cuadro:

Variable Tipo de variable Observación


Nivel tecnológico usado
Usa fungicidas
Usa insecticidas
Número de meses que está en el programa

Tamaño del predio


Ingreso mensual

6) Medidas estadísticas. Son calculadas con la finalidad de describir el


comportamiento de una variable en la población o en la muestra.

Notación de los principales parámetros y estadísticos


Medidas estadísticas Parámetro Valor estadístico
(población) (muestra)
Media o Promedio  X
Mediana ME me
Moda MO mo
Proporción  p
Variancia o Varianza 2 S2
Desviación Estándar  S
Coeficiente de Variabilidad CV cv

Parámetro. Son medidas estadísticas, para describir el comportamiento de una


variable en la población. Son calculadas con los datos de toda la población. Es un valor
constante. Se representan con letras griegas.

Ejemplo 10
1. Suponga que el número promedio de cocinas vendidas en todos los meses de venta
es 15.4 ( = 15.4).
2. El Censo Nacional 2007: XI de Población y VI de Vivienda indica que en el grupo
edad de 20 a 29 años, el 1.4% de los hombres no sabe leer y escribir mientras que
el 3.1% de las mujeres no sabe leer y escribir (1 = 0.014 y 2 = 0.031).

5
UNA La Molina - Dpto. de Estadística e Informática Estadística General

3. Suponga que en todo Breña la proporción del nivel de instrucción resultó:

Instrucción Proporción (i)


Primaria 0.455
Secundaria 0.445
Superior 0.100
TOTAL 1.000

Valor estadístico o Estadígrafo. Son medidas estadísticas, para describir el


comportamiento de una variable en la muestra. Se calculan con los datos obtenidos de
una muestra. Son valores variables (varían de muestra a muestra). Los estadísticos
sirven para estimar a los parámetros. Se representan con letras latinas.

Ejemplo 11
4. En una muestra de 30 meses de venta se encontró que el número promedio de
cocinas vendidas fue de 14.9 ( x  14.9) .
2. En la encuesta nacional de hogares (ENAHO) indica que el 1.1% de los hombres no
sabe leer y ni escribir ( p  0.011) .
2. Suponga que en distrito de Breña se ha seleccionado una muestra de 500 personas
encontrándose los siguientes resultados:

Instrucción Proporción (pi)


Primaria 0.460
Secundaria 0.430
Superior 0.110
TOTAL 1.000

Ejemplo 12
En el siguiente ejercicio, identificar: la población, la muestra, unidad elemental, la
variable, tipo de variable, observación, parámetro y valor del estadístico.

La Oficina de Servicios Generales de la UNALM desea conocer los medios en los cuales
con mayor frecuencia se transportan los alumnos de la UNALM. Para ello, realiza una
encuesta a 50 alumnos de pregrado en el semestre 2013-II y encuentra los siguientes
resultados:
a) El 70% de los encuestados usa el transporte público y un 20% usa el transporte de
la universidad y el resto propio.
b) El 20% de los encuestados consideran que el estado de las unidades de transporte
de la UNALM es bueno, el 35% que es regular y el 45% que es malo.
c) El número promedio de unidades que toma para llegar a la universidad es de 1.5.
d) El tiempo promedio de traslado de su casa a la universidad es de 39.70 minutos.

Solución
Población:
Todos los alumnos de la UNALM La Molina de pregrado del semestre 2013-II

Unidad elemental:
Cada alumno de la UNALM La Molina de pregrado del semestre 2013-II

Muestra:
50 alumnos de la UNALM La Molina de pregrado del semestre 2013-II

6
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Valor del
Tipo de
Variable Observación Estadístico Parámetro
Variable
(estimación)
a) X= Medio de transporte Cualitativa x22  público p p  0.70 La proporción de
usado para llegar a la nominal alumnos según el
UNALM. pu  0.20 medio de transporte
po  0.10 usado para llegar a
la UNALM.

b) Y= Opinión sobre el estado Cualitativa y40  bueno pb  0.20 La proporción de


de las unidades de jerárquica alumnos según la
transporte de la pr  0.35 opinión sobre el
UNALM. pm  0.45 estado de las
unidades de
transporte de la
UNALM.

c) Z= Número de unidades de Cuantitativa z4  1 z  1.45 El número promedio


transporte que toma discreta de unidades de
para llegar a la transporte que toma
UNALM. para llegar a la
UNALM

d) V= Tiempo de traslado de Cuantitativa v48  55 v  39.70 El tiempo promedio


la universidad a su continua de traslado de la
casa. universidad a su
casa

Ejemplo 13
Se presentaron algunos resultados del informe gerencial de marketing “Perfil del adulto
joven” elaborado por Apoyo Opinión y Mercado. (www.apoyo.com). El informe fue
elaborado a partir de los resultados de una encuesta realizada el 25 Abril del 2010 a
una muestra aleatoria conformada por 2000 jóvenes de Lima Metropolitana de todos los
niveles socioeconómicos y cuyas edades fluctúan entre los 21 y 35 años de edad.
 El ingreso medio mensual es de 1320 nuevos soles.
 El 5% tiene estudios de postgrado, el 17% universitaria completa, el 33%
universitaria incompleta, el 35% secundaria completa y el resto secundaria
incompleta.
 El 42% de jóvenes trabaja en empresas estatales.

Solución

Población.
Todos los jóvenes de Lima Metropolitana de todos los niveles socioeconómicos y cuyas
edades fluctúan entre los 21 y 35 años.

Muestra.
2000 jóvenes de Lima Metropolitana de todos los niveles socioeconómicos y cuyas
edades fluctúan entre los 21 y 35 años.

Unidad Elemental.
Un joven de Lima Metropolitana de cualquier nivel socioeconómicos y cuya edad fluctúa
entre los 21 y 35 años.

Variables Tipo de variable Observación


Ingreso mensual de los jóvenes Variable cuantitativa continua 1000
Grado de instrucción Variable cualitativa jerárquica Superior
Tipo de empresa que trabaja Variable cualitativa nominal Estatal
7
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Valores estadísticos
El ingreso medio mensual es de 1320 nuevos soles.
El 17% universitaria completa
El 42% de jóvenes trabaja en empresas estatales.
Parámetros
El ingreso promedio mensual
Porcentaje de jóvenes que tienen cierto grado de instrucción.
Porcentaje de jóvenes que trabajan en cierto tipo de empresa.

Ejemplo 14
Con la finalidad de efectuar mejoras con los servicios al turista, se seleccionaron 200
turistas franceses al azar que arribaron a nuestro país el 2013 y se les aplicó una
encuesta en la que se preguntó por:

 Número de días que permanecieron en el país, obteniéndose un promedio de 8 días.


 Medio de transporte que utilizaron para viajar, a lo que el 20% respondió que viajó
en avión, el 30% en tren y el 50% en bus.
 Monto gastado durante el tiempo de estadía, de lo que se obtuvo un promedio de
4560.6 soles por encuestado.
 En cuanto al servicio de alimentación el 30% lo calificó de excelente, el 20% muy
bueno y el 50% bueno.

Solución:

Población:
Todos los turistas franceses que arribaron a nuestro país el 2013
Muestra:
200 turistas franceses que arribaron a nuestro país el 2013
Unidad elemental:
Un turista francés que arribó a nuestro país el 2013

Variables: Tipo de variables: Observación:


X1 : Número de días de permanencia en el país Cuantitativa discreta 10 días
X2 : Medio de transporte para trasladarse Cualitativa nominal Avión
X3 : Monto gastado durante el tiempo de estadía Cuantitativa continua S/. 3520
X4: Opinión sobre el servicio de alimentación Cualitativa jerárquica Excelente

Valor estadístico:
Número promedio de días de permanencia en el país ( x  8 días )
Porcentaje del medio de transporte para trasladarse en avión ( p  20.0%)
Monto gastado promedio durante el tiempo de estadía ( x  S / .4560.6)
Porcentaje que opinaron sobre el servicio de alimentación excelente ( p  30.0%)

Parámetros:
Número promedio de días de permanencia en el país
Porcentaje del medio de transporte para trasladarse
Monto gastado promedio durante el tiempo de estadía
Porcentaje que opinaron sobre el servicio de alimentación

Ejercicio 5. La Dirección de Salud (DISA) de una zona rural desea realizar un estudio
para evaluar la calidad de servicio de las postas de salud. Con esta finalidad se extrae
aleatoriamente 45 postas de la DISA con lo cual se obtiene la siguiente información:
 El 45% de las postas de salud registraron como enfermedad principal las
respiratorias, 35% estomacales y el resto de la piel.
 El número promedio de niños menores de 6 años atendidos fue de 120.5
 Sólo el 25% de las postas tienen como turno de atención mañana y tarde.
8
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Identificar la población, unidad elemental, muestra, variables, tipos de variables,


observación, parámetros y valor estadístico.

Variable Tipo de Observación Valor del Parámetro


Variable Estadístico

Ejercicio 6. Una empresa distribuidora desea evaluar su eficiencia para atender los
pedidos de sus clientes. Selecciona aleatoriamente 30 pedidos realizados en el 2013 y
registra los siguientes datos: Tiempo que se tarda para atender el pedido, nivel de
satisfacción del cliente (Completamente satisfecho, satisfecho, poco satisfecho, nada
satisfecho) y el distrito en el que se encuentra el cliente. Algunos resultados fueron: El
tiempo promedio de atención es de 52 minutos, el 40% está completamente satisfecho
y el 30% de los pedidos son del distrito de Ate.
Identificar la población, unidad elemental, muestra, variables, tipos de variables,
observación, parámetros y valor estadístico.

Variable Tipo de Observación Valor del Parámetro


Variable Estadístico

9
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. Indique el tipo de variable que sea la más apropiada para cada una de las siguientes
variables:
 Edad
 Tamaño de bebida (pequeño, mediano, grande)
 Ventas anuales
 Número de camiseta de un jugador
 Placa del automóvil.
 Número de DNI
 Forma de pago ( efectivo, cheque, tarjeta de crédito)
 Tipo de medalla( Oro, Plata, Bronce)
 Puesto de llegada en una competencia.
 Número de celular.
 Número de personas a favor del aborto.
 Número de hermanos.

Para cada ejercicio, identificar: la población, la muestra, unidad elemental, la


variable, tipo de variable, observación, parámetro y valor del estadístico.

2. Se presentaron algunos resultados del informe gerencial de marketing “Perfil del


adulto joven” elaborado por Apoyo Opinión y Mercado. (www.apoyo.com). El
informe fue elaborado a partir de los resultados de una encuesta realizada el 14
Julio del 2011 a una muestra aleatoria conformada por 2000 jóvenes de Lima
Metropolitana, de todos los niveles socioeconómicos y cuyas edades fluctúan entre
los 21 y 35 años de edad.
 El ingreso medio mensual es de 850 nuevos soles.
 El 1% tiene estudios de postgrado, el 12% educación universitaria completa, el
15% educación universitaria incompleta y el 2% educación primaria incompleta.
 El 42% de jóvenes trabaja en empresas estatales.

3. Con el fin de realizar una modificación en el Impuesto al Valor del Patrimonio


Predial del Municipio de La Molina, se hace un estudio socioeconómico sobre una
muestra aleatoria de 300 familias residentes en el distrito. Del presente estudio se
encontraron los siguientes resultados:
 El ingreso familiar promedio es de S/ 2500.00 nuevos soles.
 El tipo de material predominante usado en la construcción de la vivienda, 24 de
ellos dijeron que era de material noble.
 El 40% de ellos afirmaron que el estado de conservación de su vivienda era
excelente, 20% muy buena, 20% buena, 10% regular y 10% en pésimas
condiciones.
Identificar la población, unidad elemental, muestra, variables, tipos de variables,
observación, parámetros y valor estadístico.
4. En un estudio de preferencia de bebidas gaseosas realizado en una muestra de 100
alumnos de la universidad peruana de las Américas en el semestre 2011-II se han
obtenido los siguientes resultados:
 El 52% de los encuestados fueron de sexo masculino
 El 47% de los encuestados prefieren la gaseosa en presentación de plástico
 El 40% de los encuestados prefiere la marca Inca Kola y el 30% prefiere Coca
Cola.
 La edad promedio de los encuestados es de 20.47 años
 El número promedio de gaseosas tamaño mediano consumidas por alumno
semanalmente es de 3.4

10
UNA La Molina - Dpto. de Estadística e Informática Estadística General

5. Estudios realizados sobre la contaminación ambiental coinciden en que los


principales causantes de la contaminación del aire son la combustión en los
vehículos con motores diesel y la falta de un mantenimiento técnico. Para tener
información cuantitativa de lo mencionado anteriormente, se ha tomado una
encuesta a una muestra de 30 choferes de la ruta Portada del Sol-Santa Anita
(Línea P) encontrándose los siguientes resultados:
 El número promedio de veces que los choferes realizan una revisión técnica a sus
vehículos es 1.36 veces al año.
 La ganancia promedio por día es de 97.73 nuevos soles
 20 choferes poseen un grado de instrucción secundario, 5 choferes poseen
primaria completa, 5 choferes poseen nivel universitario.

6. La microempresa “Milglen”, fabrica yogurt y va a lanzar al mercado un nuevo sabor


de yogurt; como desea conocer la necesidad de los consumidores realiza una
encuesta a 90 consumidores de yogurt que acuden al supermercado “Metro” de La
Molina, encontrándose los siguientes resultados:
 El 75% de los encuestados consume yogurt por costumbre, frente a un 20% que
lo hace por gusto y un 5% que lo hace por dieta.
 El 33% consume la marca “Gloria”.
 El precio promedio que estarían dispuestos a pagar por un yogurt de 1 litro es de
4.50 nuevos soles.
 El 95% prefiere el yogurt con fruta frente a un 5% que lo prefiere natural.

7. Con la finalidad de efectuar mejoras con los servicios al turista, se seleccionaron


200 turistas al azar y se les aplicó una encuesta en la que se preguntó por:
 Número de días que permanecieron en el país, obteniéndose un promedio de 8
días.
 Medio de transporte que utilizaron para viajar, a lo que el 20% respondió que
viajó en avión, el 30% en tren y el 50% en bus.
 Dinero gastado durante el tiempo de estadía, de lo que se obtuvo un promedio de
1253.6 nuevos soles por encuestado.
 En cuanto al servicio de alimentación el 30% lo calificó de excelente, el 20% muy
bueno y el 50% bueno.
8. El Departamento de Estadística e Informática de la Universidad Nacional Agraria La
Molina con la finalidad de contar con mayor información sobre los alumnos
matriculados en el curso de Estadística General, aplicó una encuesta a dichos
alumnos en la que se preguntó por:
 Facultad a la que pertenece, a lo que el 35% respondió pertenecer a Agronomía.
 Número de veces que ha llevado el curso.
 Promedio ponderado, obteniéndose un promedio para todos los alumnos de
12.10.
 Expectativa sobre la dificultad del curso (muy fácil, fácil, difícil, muy difícil).

11
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Las medidas estadísticas calculadas con los datos de una población se llaman
___________________ y las calculadas con los datos de una muestra
___________________________.
2. La parte de la estadística que permite la estimación y prueba de hipótesis de los
parámetros se llama ____________________ y el cálculo de medidas estadística se
denomina ___________________.
3. El valor posible que toma una variable de denomina _____________________.
4. Una ONG que brinda asistencia técnica a productores de truchas en el valle de
Huancayo ha aplicado una encuesta para establecer una línea de base en tres zonas
(A, B y C). Los resultados obtenidos indicaron que la edad promedio de los
productores es de 35.8 años; el peso promedio de las truchas en la zona A, B y C
son 1.2, 1.8 y 1.6 kgrs. respectivamente. Entonces las variables son
_______________________________________________________________.
5. Si el ganadero Juan Pérez, desea registrar el número diario de litros de leche
producidas, entonces la unidad elemental es ____________________.
6. Si se han definido cuatro rangos de las edades de una muestra de 100 agricultores:
de 18 a 25, de 26 a 40, de 41 a 60 y de 61 a más años, entonces la variable rango
de edades es del tipo ______________________________________.
7. Para un estudio sobre la contaminación de un reservorio de agua, se extraen 400
muestras de dos litros de agua y se halló que el número promedio de bacterias fue
de 10.5. Entonces:
Población: __________________________________________.
Unidad elemental: ____________________________________.
Variable: ___________________________________________.
8. En la ENAHO (Encuesta Nacional de Hogares) del 2011, respecto al material
predominante en las viviendas, el 65% es de material noble, el 20% de calamina, el
10% de esteras y 5% otros. La variable en estudio es de tipo _________________.
9. Si un establecimiento de salud del MINSA registra trimestralmente el número de
niños atendidos menores a 5 años, entonces la unidad elemental es __________ y
la variable es del tipo _______________________.
10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F


a. La población y una muestra extraída de ella pueden tener diferentes
unidades elementales
b. Las medidas estadísticas que se pueden calcular con los datos de un
censo son parámetros y valores estadísticos.
c. Las poblaciones pueden ser finitas e infinitas
d. Una condición para que una muestra sea representativa de una
población es que sea aleatoria.
e. Los valores de las variables sólo pueden ser obtenidos de las unidades
elementales de una población.

12
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO II

ORGANIZACIÓN DE DATOS

La organización de datos consiste en la elaboración de tablas de frecuencias y gráficos


con la finalidad de clasificar, agrupar y presentar la información en forma resumida,
facilitando el análisis descriptivo de los conjuntos de datos. La elaboración de una tabla
de frecuencia y su gráfico respectivo dependerá del tipo de variable definida.

Objetivo. Aplicar en forma adecuada los procedimientos de la estadística descriptiva


para tabular, clasificar, analizar, graficar y presentar información según sea la variable
cualitativa o cuantitativa.

2.1 Organización para variables cualitativas (nominal o jerárquica)

La tabla de frecuencia es organizada por clases o categorías que corresponden a los


distintos valores (atributos) que toma la variable cualitativa.

Tabla de frecuencias

N° de clase Clase o Frecuencia Frecuencia Frecuencia


categoría Absoluta Relativa Porcentual
(fi) (fri) (pi)
1 Atributo 1 f1 fr1 p1
2 Atributo 2 f2 fr2 p2
.
.
.
K Atributo k fk frk pk
Total n 1 100

Donde:
k= Número de clases
n= Número de observaciones o unidades elementales

Frecuencia absoluta (fi). Es el número de observaciones que existen en la clase o


k
categoría i. Se cumple: f
i 1
i n

Frecuencia relativa (fri). Es la proporción de observaciones con respecto al total (n)


fi k
que existen en la clase o categoría i. Se calcula: fri  . Se cumple:  fr  1 .
i
n i 1
Frecuencia porcentual (pi). Es el porcentaje de observaciones con respecto al total
(n) que existen en la clase o categoría i. Se tiene: pi  fri 100 . Se cumple:
k

p
i 1
i  100%

Tipo de gráficos

Se pueden usar las frecuencias absolutas (fi), relativas (fri) o porcentuales (pi) para
elaborar dos tipos de gráficos:

 Gráfico de barras vertical u horizontal


 Gráfico circular

13
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 1
Se hizo una encuesta a una muestra de 45 clientes del Banco Comercial y se obtuvo los
siguientes resultados:

Tarjeta
Ingreso Nº de Monto de
de Lugar de uso de
Caso Edad Mensual viajes deuda Sexo
crédito tarjeta de crédito
(miles de S/.) (mensual) (miles de S/.)
usada
1 29 3.00 3 Ta1 centros comerciales 1.80 F
2 34 1.99 3 Ta2 discotecas 1.10 F
3 61 2.90 2 Ta3 restaurantes 0.60 M
4 28 4.70 0 Ta2 grifos 2.70 M
5 41 3.00 1 Ta4 centros comerciales 1.30 F
6 57 5.80 2 Ta1 otros 0.80 F
7 30 4.50 4 Ta4 grifos 0.64 M
8 43 7.09 0 Ta3 centro de estudios 0.90 F
9 45 4.40 1 Ta5 centros comerciales 1.40 M
10 35 6.82 0 Ta2 grifos 2.46 F
11 42 5.30 3 Ta1 restaurantes 1.10 F
12 28 5.80 2 Ta4 discotecas 0.20 M
13 28 5.70 1 Ta2 grifos 0.80 F
14 24 4.70 4 Ta4 restaurantes 0.50 M
15 35 6.60 1 Ta5 discotecas 0.40 F
16 42 6.60 2 Ta4 restaurantes 3.46 F
17 48 5.74 1 Ta1 discotecas 1.20 M
18 34 4.23 0 Ta5 centros comerciales 1.90 F
19 66 5.50 3 Ta1 restaurantes 2.35 M
20 36 6.60 1 Ta4 centros comerciales 1.90 F
21 59 3.85 1 Ta4 restaurantes 0.30 M
22 37 6.70 3 Ta6 centros comerciales 0.70 F
23 53 3.50 0 Ta5 restaurantes 0.67 F
24 35 8.80 1 Ta1 discotecas 0.50 F
25 63 10.00 4 Ta5 restaurantes 1.50 M
26 28 10.10 2 Ta1 centro de estudios 0.70 F
27 43 13.40 2 Ta2 discotecas 1.50 F
28 60 3.90 0 Ta5 otros 1.99 M
29 59 5.84 1 Ta5 restaurantes 0.60 M
30 63 3.50 1 Ta4 grifos 1.50 M
31 55 4.40 2 Ta2 centro de estudios 0.40 M
32 42 3.70 0 Ta5 centros comerciales 1.80 F
33 51 4.50 1 Ta1 otros 0.70 M
34 39 5.63 1 Ta1 otros 0.80 M
35 55 4.60 4 Ta1 discotecas 1.25 M
36 35 5.79 0 Ta5 discotecas 1.60 M
37 42 2.93 3 Ta5 grifos 0.20 M

14
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Tarjeta
Ingreso Nº de Monto de
de Lugar de uso de
Caso Edad Mensual viajes deuda Sexo
crédito tarjeta de crédito
(miles de S/.) (mensual) (miles de S/.)
usada
38 36 6.60 1 Ta3 grifos 4.37 F
39 49 4.60 0 Ta3 centros comerciales 2.00 M
40 27 6.60 0 Ta4 grifos 0.90 F
41 36 2.90 4 Ta1 discotecas 0.47 M
42 42 4.69 2 Ta2 centros comerciales 0.80 F
43 25 3.99 1 Ta4 restaurantes 4.32 F
44 32 6.70 2 Ta1 centros comerciales 0.60 M
45 28 2.58 1 Ta4 otros 1.70 M

Organización de datos cualitativos

Organicemos las observaciones de la variable tarjeta de crédito usada.


Tabla de frecuencias del tipo de tarjeta de crédito usada
Frecuencia Frecuencia Frecuencia
Tarjeta de
N° de clase Absoluta Relativa Porcentual
crédito usada
fi fri pi
1 Ta1 12 0.2667 26.67
2 Ta2 7 0.1556 15.56
3 Ta3 4 0.0889 8.89
4 Ta4 11 0.2444 24.44
5 Ta5 10 0.2222 22.22
6 Ta6 1 0.0222 2.22
Total 45 1.0000 100.00
Fuente: Elaboración propia

f3 = 4 indica que 4 de los clientes del Banco Comercial utilizan la tarjeta de


crédito Ta3
fr1 = 0.2667 indica la proporción de clientes del Banco Comercial que utilizan la tarjeta
de crédito Ta1.
p2 = 15.56 indica que el 15.56% de clientes del Banco Comercial utilizan la tarjeta
de crédito Ta2.

Gráfico de barras de frecuencia porcentual

Tarjetas de crédito usada


30

25

20
%

15

10

0
Ta1 Ta2 Ta3 Ta4 Ta5 Ta6
Tarjeta de crédito

Fuente: Elaboración propia

En el gráfico de barras, se aprecia que la tarjeta Ta1 es la de uso más frecuente.


15
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Gráfico Circular

Tarjetas de crédito usada


C ategory
Ta6 Ta1
1, 2.2% Ta2
Ta3
Ta5 Ta1 Ta4
10, 22.2% 12, 26.7% Ta5
Ta6

Ta2
Ta4 7, 15.6%
11, 24.4%

Ta3
4, 8.9%

Fuente: Elaboración propia

En el gráfico circular, se aprecia que la tarjeta de crédito Ta6 es la de uso menos


frecuente.

Ejercicio 1. Se ha realizado una encuesta para evaluar el grado de satisfacción de


cuatro planes de seguro familiar (A, B, C y D). Los resultados para una muestra de 40
clientes que adquirieron el seguro familiar en los dos últimos años se muestra en la
siguiente tabla.

A Bueno A Regular A Malo D Regular C Bueno


A Malo A Malo A Malo C Malo B Bueno
B Regular D Regular D Regular B Regular D Regular
C Regular C Bueno B Regular C Malo C Bueno
B Malo B Bueno C Malo B Regular C Malo
D Malo C Malo B Regular D Bueno A Bueno
A Regular B Regular D Bueno A Bueno C Malo
D Regular B Malo B Bueno D Malo B Regular

a. Elabore una tabla de frecuencias y un gráfico de barras de frecuencias absolutas para


la variable plan de seguro familiar.

16
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Elabore una tabla de frecuencias y un gráfico circular de frecuencias porcentual para


la variable grado de satisfacción del plan de seguro familiar.

Tabulaciones cruzadas

También llamadas tablas de contingencia o de doble entrada. Se usan para resumir y


presentar de manera simultánea los datos para dos variables cualitativas.

Ejercicio 2. En el 2010 el Instituto Nacional de Estadística e Informática (INEI) en


convenio con la Asamblea Nacional de Rectores (ANR) realizó el II Censo Nacional
Universitario. A continuación se presentan los resultados de dos características
generales.

Distribución de los alumnos de pre-grado según el sexo y edad

Edad
Sexo De 15 a De 21 a De 26 a De 31 a De 36 a Más de Total
20 años 25 años 30 años 35 años 40 años 40 años
Masculino 126214 169306 60006 21465 10651 12503 400145
Femenino 150859 159091 42243 15313 7333 7986 382825
Total 277073 328397 102249 36778 17984 20489 782970
Fuente: PERÚ, II Censo Nacional Universitario 2010

 Las variables utilizadas esta tabla de contingencia son: ______________________


___________________________________________________________________
 El total de alumnos de pre-grado del sexo masculino es ______________________
 El total de alumnos de pre-grado de 31 a 35 años es _________________________
 El % de los alumnos de pre-grado del sexo masculino que tienen 26 a 30 años es
___________________
 El % de alumnos de pre-grado de 21 a 25 años que son del sexo femenino es
___________________
 El % de alumnos de pre-grado de 26 a 30 años y que son del sexo femenino es
___________________

17
UNA La Molina - Dpto. de Estadística e Informática Estadística General

2.2 Organización para variables cuantitativas discretas

La tabla de frecuencia es organizada por clases o categorías que corresponden a los


distintos valores (números) que toma la variable cuantitativa discreta. Se usa cuando el
conjunto de valores posible de la variable cuantitativa discreta es pequeño.

Tabla de frecuencias
N° de clase Valor de la Frecuencia Frecuencia Frecuencia
variable Absoluta Relativa Porcentual
(fi) (fri) (pi)
1 x1 f1 fr1 p1
2 x2 f2 fr2 p2
.
.
.
k xk fk frk pk
Total n 1 100

Tipo de gráfico. Se elabora el gráfico de bastones o varas con las frecuencias


absolutas, relativas o porcentual.

Ejemplo 2. Organización de datos cuantitativos discretos


Organicemos las observaciones de la variable número de viajes al mes de los clientes.

Tabla de frecuencias del número de viajes al mes


Frecuencia
Frecuencia Frecuencia
N° de viajes al Absoluta
Relativa Porcentual
mes No de clientes
fri pi
fi
0 10 0.2222 22.22
1 15 0.3333 33.33
2 9 0.2000 20.00
3 6 0.1333 13.33
4 5 0.1111 11.11
Total 45 1.0000* 100.00*
Fuente: Elaboración propia

Interprete:
f2 = 15 Existen 15 clientes del Banco Comercial que hacen un viaje al mes.
p1 = 22.22 El 22.22% de los clientes no han realizado viajes.

Gráfico de bastones o varas de frecuncia porcentual

Viajes al mes
35

30

25

20
%

15

10

0
0 1 2 3 4
Viajes

Fuente: Elaboración propia


En el gráfico de varas, se aprecia que en la variable número de viajes al mes, el número
1 (un viaje al mes) es el más frecuente.

18
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 3. En una estación experimental se ha determinado el número de larvas de


insectos encontrados en 40 parcelas, en un cultivo de frijol. Los datos se muestran a
continuación:

1 3 3 5 6 6 9 9 10 10
1 3 5 5 6 3 9 10 3 1
10 3 5 5 6 5 9 10 1 1
3 3 5 6 6 5 9 5 3 1

a. Elabore una tabla de frecuencias y su respectivo gráfico de bastones.

b. Interprete f3 y p3

c. ¿Qué número y porcentaje de parcelas muestran al menos 6 larvas?

2.3 Organización para variables cuantitativas continuas

El conjunto de datos es agrupado por intervalos de clase que conforman las clases o
categorías de la tabla de frecuencias.

Tabla de frecuencias
N° de Intervalos Marca Frec. Frec. Frec. Frec. Frec. Frec.
clases de clase de Absoluta Relativa Porc. Acumulada Acumulada Acum.
clase Absoluta Relativa Porc.
[LI-LS> fi fri pi Fi Fri Pi
xi'
1 [LI1-LS1> x’1 f1 fr1 p1 F1 Fr1 P1
2 [LI2-LS2> x’2 f2 fr2 p2 F2 Fr2 P2
.
.
.
k [LIk-LSk] x’k fK frK pk FK FrK Pk
Total N 1 100 1 100

19
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Donde:

LIi = Límite inferior de la clase i (Límite cerrado)


LSi= Límite superior de la clase i (Límite abierto, salvo la última clase que es cerrado)

'
Marcas de Clase ( X i ). Es el punto medio del intervalo de clase. Se considerada como
el valor representativo de los valores que pertenecen al intervalo de clase.
LI i  LSi
Se calcula: X i'  o X i'  X i'1  TIC , donde TIC es el tamaño del intervalo
2
de clase

Frecuencia Porcentual (pi). Indica el porcentaje de observaciones o unidades


k
elementales que hay en la clase i. Se cumple:  p  100%
i 1
i

Frecuencia Acumulada Absoluta (Fi). Indica el número de observaciones o unidades


elementales que hay desde la primera clase hasta la clase i. Se calcula por:
k
Fk   fi  f1  f 2  ...  f k .
i 1

Frecuencia Acumulada Relativa (Fri). Indica la proporción de observaciones o


unidades elementales que hay desde la primera clase hasta la clase i. Se calcula por:
i

Fi
 fj i
Fri 
n
 j 1

n
 
j 1
fr j

Frecuencia Acumulada Porcentual (Pi). Indica el porcentaje de observaciones o


unidades elementales que hay desde la primera clase hasta la clase i.

Pasos para la construcción de una tabla de frecuencias:

Paso 1. Hallar el rango o amplitud (r). r  Máximo  Mínimo

Paso 2. Hallar el número de intervalos de clase (k). Se aplica la regla de Sturges:


k  1  3.3 log( n) . Eligiendo un valor: 3 ≤ k ≤ 15

 Se aplica el redondeo normal a entero.


Si el primer dígito decimal: es  5, se redondea al entero inmediato
superior y si es < 5, se considera el entero obtenido.
r
Paso 3. Hallar el tamaño de Intervalo de Clase (TIC). TIC 
k
 El número de decimales debe ser igual al de las observaciones.
 Se aplica el redondeo por exceso. Si la posición del decimal es  1, se
redondea al valor inmediato superior, de lo contrario no se redondea.

Paso 4. Hallar los límites inferiores y superiores de cada intervalo de clase.

LI1 = Mínimo LS1= LI1 + TIC


LI2 = LI1 + TIC = LS1 LS2= LI2 + TIC
LI3 = LI2 + TIC = LS2 LS3= LI3 + TIC
...
LIk = LIk-1 + TIC = LSk-1 LSk= LIk + TIC

20
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Paso 5. Realizar el conteo del conjunto de datos, como el resultado de asignar cada
observación a alguno de los intervalos de clase. Luego completar la tabla hallando x’i , fi ,
fri , Fi , Fri .

Tipos de gráficos
 Histograma. Se usan las frecuencias absolutas o relativas en el eje vertical y los
intervalos de clase en el eje horizontal.
 Polígono. Se usan las frecuencias absolutas o relativas en el eje vertical y las
marcas de clase en el eje horizontal.

Ejemplo 3. Organización de datos cuantitativos continuos

Organicemos las observaciones de la variable ingreso mensual de los clientes (en miles
de nuevos soles).

Paso 1. Calcule el rango ( R ). R= xmax - xmin


En el ejemplo R = 13.40 – 1.99 = 11.41

Paso 2. Determine el número de intervalos de clase ( k ). Utilice la regla de


Sturges
k = 1 + 3.3 log n = 1 + 3.3 log 45 = 6.4556

Redondeo estadístico: Se toma en consideración el primer valor decimal, si es:

 5 se redondea al entero inmediato superior


< 5 se considera el entero obtenido

En nuestro ejemplo, k = 6.4556, estamos en el segundo caso, por lo que el número


de clases que se debe considerar es k = 6.

Paso 3. Halle el tamaño de los intervalos de clase (TIC)


R 11.41
TIC    1.90167
k 6

Redondeo por exceso: se toma en consideración el número mayor de decimales que


tienen las observaciones. Considerando la posición de este decimal, se presentan 2
casos:

 Si existe alguna cifra significativa a la derecha de este valor, se redondea al


valor inmediato superior
 Si no existe ninguna cifra significativa a la derecha de este valor, entonces no se
realiza ningún redondeo

TIC  1.90167

Como las observaciones tienen 2 decimales en el TIC también se considerará con 2


decimales y como hay al menos un valor diferente de cero a la derecha de las
centésimas se incrementa en una centésima quedando TIC = 1.91

21
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Paso 4. Construya la tabla de frecuencias.


Tener en cuenta que en la última clase el intervalo es cerrado en el lado derecho.
Tabla de frecuencias del ingreso mensual

Marca Frec Frec. Frec. Frec. Frec. Frec.


Ingreso de .
Rel. Porc. Acum. Acum. Acum.
N° de mensual clase Abs. Abs. Rel. Porc.
clases [LI-LS>
xi' fi
fri pi Fi Fri Pi
1 [1.99 - 3.90> 2.945 11 0.2444 24.44 11 0.2444 24.44
2 [3.90 - 5.81> 4.855 20 0.4444 44.44 31 0.6888 68.88
3 [5.81 - 7.72> 6.765 10 0.2222 22.22 41 0.9110 91.10
4 [7.72 - 9.63> 8.675 1 0.0222 2.22 42 0.9332 93.32
5 [9.63 -11.54> 10.585 2 0.0444 4.44 44 0.9776 97.76
6 [11.54-13.45] 12.495 1 0.0222 2.22 45 1.000 100
45 1.0000 100
Fuente: Elaboración propia

Interprete:
 f2 = 20; 20 de los clientes tienen un ingreso mensual de por lo menos S/.
3900 pero menos de S/. 5810.

 fr4 = 0.0222; 0.0222 es la proporción de clientes que ganan por lo menos


S/. 7720 pero menos de S/. 9630

 p5 = 4.44; 4.44% de los clientes ganan por lo menos S/. 9630 pero menos de
S/. 11540.

3
 F3   fi  f1  f 2  f3  11  20  10  41 41 de los clientes ganan mensualmente por
i 1

lo menos S/. 1990 pero menos de S/. 7720

 F5 – F2 = 44 – 31 =13
5
F5 – F2 = f
i 3
i  f3  f 4  f5  10  1  2  13 13 de los clientes ganan por lo menos

S/. 5810 pero menos de S/. 11540


4
 Fr4   fri  fr1  fr2  fr3  fr4  0.2444  0.4444  0.2222  0.0222  0.9332 , indica
i 1
que 0.9332 es la proporción de clientes que ganan por lo menos S/. 1990 pero
menos de S/. 9630.

 Fr5 – Fr3 = 0.9776 – 0.9110 = 0.0666


5
Fr5 – Fr3 =  fr  fr  fr
i 4
i 4 5  0.0222  0.0444  0.0666 , indica que 0.0666 es la

proporción de los clientes que ganan por lo menos S/.7720 pero menos de
S/.11540.

3
 P3   pi  p1  p2  p3  24.44  44.44  22.22  91.10 , indica que el 91.10% de los
i 1
clientes tienen ingresos mensuales de por lo menos S/.1990 pero menos de
S/.7720

22
UNA La Molina - Dpto. de Estadística e Informática Estadística General

 P5 – P2 = 97.76 – 68.88 = 28.88


5
P5 – P2 = p  p
i 3
i 3  p4  p5  22.22  2.22  4.44  28.88 , indica que el 28.88% de

los clientes de ese banco tienen ingresos mensuales por lo menos S/. 5810 pero
menos de S/. 11540.

 x3'  6.765 es el valor representativo de los clientes que ganan por lo menos
S/.5810 pero menos de S/.7720. Las diez observaciones (f3 = 10) que hay en la
clase 3 son representadas por el valor S/. 6765.

Histograma de frecuencias porcentuales

Ingreso Mensual
50

40

30
%

20

10

0
1.99 3.90 5.81 7.72 9.63 11.54 13.45
Ingreso

Fuente: Elaboración propia

En el histograma se puede apreciar que la clase más frecuente es la segunda esto


indica que los ingresos más frecuentes son de por lo menos S/. 3900 pero menores a
S/. 5810.

Polígono de frecuencias absolutas

Ingreso Mensual

Series1, 4.855, 20

Series1, 2.945, 11 Series1, 6.765, 10

Series1,
Series1, 8.675, 10.585, 2
1 Series1,
Series1, 1.035, 0 Series1, 12.495,
14.405, 1
0
Fuente: Elaboración propia

En el polígono de frecuencias se observa que son pocos los clientes con ingresos
mensuales altos.

23
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 4. Con la finalidad de evaluar la viabilidad de un proyecto de reforestación de


una zona sometida a estrés turístico, para el que se ha solicitado una subvención
pública, se ha tomado muestras sobre la composición en mg/cm3 de desechos
orgánicos en el suelo. Los datos obtenidos fueron:

Composición de desechos orgánicos (mg/cm3)


8.2 12.9 15.3 18.8 20.8
9.2 12.9 15.8 19.7 21.0
9.4 14.0 15.9 20.3 21.4
10.8 14.2 16.9 20.3 22.2
10.8 14.4 18.2 20.3 22.5
11.1 15.1 18.4 20.2 23.2
11.2 15.1 18.6 20.7 25.8
a. Construir la tabla de frecuencias usando la regla de Sturges.

b. A partir de la tabla de frecuencias interprete: f3, fr3, p3, F4 , Fr4, P4

c. ¿Entre qué niveles de composición se encuentra aproximadamente el 51.4% de las


observaciones con menores niveles registrados?

24
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 5. La gerencia de marketing del Supermercado ABC desea realizar un estudio


con la finalidad de evaluar la satisfacción de sus clientes. Para el estudio se selecciona
aleatoriamente a 40 clientes que acudieron al supermercado en un día y se registró los
siguientes datos.

N° Tipo Estado de Número de Monto N° Tipo Estado de Número de Monto


pago los compras (nuevos pago los compras (nuevos
productos semanal soles) productos semanal soles)
1 1 2 2 200.5 21 3 4 2 350.5
2 2 2 4 200.3 22 3 2 4 250.3
3 2 1 1 136.0 23 3 4 5 180.4
4 2 2 2 150.2 24 2 3 1 320.8
5 2 2 3 300.6 25 2 1 2 150.6
6 1 1 2 320.8 26 3 4 3 190.8
7 3 2 2 310.8 27 1 3 2 240.5
8 3 1 4 229.2 28 2 1 3 275.8
9 1 2 3 180.5 29 3 2 3 130.8
10 2 3 5 110.6 30 3 3 1 180.2
11 3 1 1 140.8 31 2 4 4 315.4
12 1 3 3 368.6 32 1 2 2 290.6
13 2 2 2 160.2 33 2 3 2 265.8
14 3 1 3 180.9 34 3 4 1 360.8
15 3 2 1 190.5 35 1 1 3 260.2
16 2 3 2 210.4 36 2 2 3 140.5
17 3 2 3 89.4 37 1 3 2 180.2
18 1 3 3 110.6 38 3 4 3 220.5
19 2 1 4 100.5 39 3 1 2 345.8
20 1 1 1 120.3 40 3 2 3 95.4
Considerar: Tipo de pago: 1=Contado 2=Tarjeta de crédito 3=Crédito ABC
Estado de los productos: 1=Muy bueno 2=Bueno 3=Regular 4=Malo
a. Elabore una tabla de frecuencias y un gráfico de barras de frecuencia relativa de la
variable tipo de pago.

25
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Elabore la tabla de frecuencias para la variable número de compras semanal.


Elabore el respectivo gráfico de varas.

c. Elabore la tabla de frecuencias usando la regla de Sturges para la variable monto


semanal.

d. Interprete f4, F5-F2, 1- Fr4 , 100-P2

26
UNA La Molina - Dpto. de Estadística e Informática Estadística General

e. Elabore el respectivo histograma y polígono de frecuencias.

Ejercicio 6. Se ha recolectado información de 20 sacos de papa tomados al azar,


cosechados para un trabajo experimental. Se muestra a continuación el número de
papas que están comenzando descomponerse por saco y las variedades de papas
cosechadas.
Número de papas
descomponiéndose Variedades de papa cosechadas

8 12
8 12 10
8 12 8
9 16 6
9 16 4
9 16 2
12 16 0
12 17 amarilla negra blanca tomasa serrana
12 17 Serie1 3 5 9 2 1
12 18
Variedad de papa
Fuente: Estudio Experimental.

a. Elabore una tabla de frecuencias para la variable cuantitativa.

b. Elabore un cuadro que resuma la información de la variable cualitativa.

27
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 1

1. Una fábrica textil para su próxima campaña de verano debe decidir la fabricación de
tres tipos de diseños de polos (D1, D2 y D3). Para apoyar su decisión la gerencia
de producción realizó un estudio extrayendo una muestra aleatoria de 60 clientes
potenciales, registrándose los siguientes resultados:

 El 45.5% de los clientes prefieren el diseño D1, el 35.5% el D2 y el resto el


diseño D3.
 El 55% tienen la talla S, el 25% M y el resto L.
 El número promedios de polos que comprarían es de 1.8
 El precio promedio que pagarían es de S/. 45.5
 La edad promedio es de 35.8 años

a) De acuerdo al enunciado identifique la población de estudio, unidad elemental y


muestra.

b) Identifique las variables, tipos, observación, estadístico o parámetro.

Variable Tipo de Observación Estadístico Parámetro


Variable

28
UNA La Molina - Dpto. de Estadística e Informática Estadística General

2. El ministerio de la Producción está realizando un estudio sobre las embarcaciones


de pesca de la zona norte el país y que abastecen a los mercados locales. Para el
análisis seleccionó una muestra aleatoria de 30 embarcaciones en el último mes y
se registra la producción de pesca (en decenas de kgs), el tipo de embarcación y el
número de días de pesca. Los datos se presentan en la siguiente tabla:

Número de Número de
Tipo de Tipo de
Producción días de Producción días de
paquete paquete
pesca pesca
22.0 T1 4 39.8 T1 3
23.7 T1 2 40.0 T2 2
24.6 T2 2 40.3 T3 2
24.8 T2 4 40.6 T3 4
25.0 T3 2 42.8 T3 5
26.4 T3 4 43.0 T4 6
26.6 T4 6 44.1 T4 5
27.5 T3 6 44.5 T4 4
29.9 T2 2 44.8 T2 3
31.1 T1 4 45.6 T2 4
32.5 T2 3 46.0 T3 3
34.8 T3 5 46.4 T1 2
35.0 T2 6 48.0 T2 6
38.4 T4 3 52.0 T1 3
38.5 T4 3 54.0 T1 5
39.1 T3 4 56.0 T2 6

a) Con respecto a la información proporcionada, identifique la población, unidad


elemental y muestra.

b) Elabore una tabla de frecuencias sobre el tipo de embarcación y un gráfico de


barras de frecuencias porcentuales.

29
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c) Elabore la tabla de frecuencias para la producción de pesca. Use la regla de


Sturges.

d) Interprete f4, p4, F5, y 100-P5.

30
UNA La Molina - Dpto. de Estadística e Informática Estadística General

e) Elabore el respectivo histograma de frecuencias porcentuales.

f) Elabore la tabla de frecuencias para la variable número de días de pesca y su


gráfico respectivo.

31
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. En Marzo del 2009 la empresa de investigación de mercados “CONTHEOS”, fue


contratada por el banco “Nuevo Horizonte” para que realice un estudio sobre la
aceptación de los créditos anuales que ofrecen a sus clientes en sus sucursales de
los distritos de La Molina y Surco. La empresa “CONTHEOS” después de hacer un
estudio de las características de los clientes activos del banco, seleccionó una
muestra de 36 clientes de la sucursal de La Molina, y recolectó de ellas información
para un conjunto de variables seleccionadas para tal fin. Los resultados se muestran
a continuación:

Nº Tipo de Nº de Monto de crédito. Tipo de


Cliente crédito solicitudes (miles de soles) cliente
1 1 1 30.0 2
2 2 2 35.3 3
3 3 1 48.4 2
4 1 2 50.1 2
5 2 1 55.3 3
6 4 2 57.2 2
7 5 1 58.1 1
8 3 1 60.4 3
9 5 2 65.3 3
10 4 1 66.0 2
11 3 3 68.0 2
12 4 1 69.1 2
13 2 3 70.2 3
14 5 3 72.5 2
15 4 1 73.1 3
16 2 4 75.3 3
17 3 4 77.2 3
18 4 1 79.1 3
19 4 3 82.7 2
20 5 7 84.3 3
21 3 1 86.0 1
22 4 5 90.3 1
23 1 6 95.2 2
24 3 1 100.1 3
25 4 2 101.2 3
26 1 4 102.2 1
27 3 1 102.2 3
28 4 2 104.3 2
29 1 4 110.1 2
30 3 1 115.3 3
31 4 3 118.4 2
32 1 2 119.1 1
33 3 1 125.1 3
34 1 3 128.0 2
35 1 1 130.2 2
36 2 2 140.0 3

Tipo de Crédito: (1) Inversión en negocio, (2) Compra de inmuebles,


(3) Compra de maquinarias, (4) Inversión en bolsa de valores
(5) Compra de autos.
Tipo de cliente: (1) Casado (a), (2) Soltero (a), (3) Divorciado(a)

32
UNA La Molina - Dpto. de Estadística e Informática Estadística General

a) Elabore una gráfica adecuada para la variable cualitativa.


b) Haciendo uso de la regla de Sturges construya un cuadro de distribución de
frecuencias para la variable Monto de crédito (miles de soles).
c) Interprete según enunciado los valores de f2, p3, F4, P5 y (p5+p6).
d) Construya el polígono de frecuencias para la variable Monto de crédito.
e) Construya un cuadro de distribución de frecuencias para la variable cuantitativa
discreta.

2. La siguiente información se tomó de los registros del Hospital Centro de Salud


Materno Infantil San Bartolomé. Sección Maternidad entre el 18 y el 22 de Mayo
del 2012.

Madre Hijo
Caso Edad Estado Civil No de partos Peso Sexo
1 25 conv 2 2.90 F
2 22 conv 2 2.90 F
3 32 conv 4 4.04 M
4 22 conv 1 4.35 F
5 18 casada 1 3.60 M
6 21 casada 3 3.50 M
7 20 soltera 2 3.20 M
8 19 casada 1 3.00 F
9 23 casada 3 3.60 M
10 26 casada 2 2.80 M
11 36 casada 5 3.00 M
12 30 conv 5 3.30 F
13 23 soltera 3 3.10 F
14 29 conv 4 3.30 F
15 22 conv 2 3.30 F
16 23 casada 1 3.50 F
17 27 conv 2 3.62 M
18 28 conv 3 3.30 F
19 19 conv 1 2.65 F
20 32 casada 2 2.86 F
21 17 conv 1 2.62 M
22 21 conv 2 3.56 F
23 18 casada 2 3.10 M
24 27 conv 3 3.62 F
25 21 casada 1 3.18 M
26 19 casada 1 2.95 M
27 19 conv 2 3.90 M
28 31 casada 3 3.00 F
29 32 casada 4 4.00 F
30 21 conv 2 3.85 M
31 23 casada 2 2.75 F
32 19 casada 1 3.18 F
33 19 conv 1 3.14 F
34 26 conv 3 3.08 F
35 18 casada 1 2.80 F
36 24 casada 2 3.40 M
37 30 casada 3 3.00 F
38 26 casada 3 3.05 F
39 19 casada 1 2.90 F
40 34 casada 3 3.10 F
33
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Madre Hijo
Caso Edad Estado Civil No de partos Peso Sexo
41 28 casada 3 3.40 M
42 24 casada 2 2.97 F
43 26 casada 2 2.94 F
44 22 casada 2 3.80 M
45 34 casada 5 4.65 F

a) Elabore una tabla y grafica adecuada para la variable ESTADO CIVIL.


b) Haciendo uso de la regla de Sturges construya un cuadro de distribución de
frecuencias para la variable PESO DEL RECIEN NACIDO.
c) Interprete según enunciado los valores de f2, fr4, p5, F3, P3 y (P5-P2) del cuadro de
distribución de frecuencias anterior.
d) Construya el polígono de frecuencias para la variable PESO DEL RECIEN
NACIDO.
e) Construya un cuadro de distribución de frecuencias para la variable Nº DE
PARTOS.

3. Con el objeto de determinar el número de horas diarias que los alumnos de la


facultad de ciencias se dedican a estudiar en la biblioteca de la UNALM, se llevó a
cabo una encuesta a 49 de ellos, obteniéndose los siguientes resultados expresados
en horas:

1.2 1.8 2.3 2.6 3.0 3.1 3.6


1.2 1.8 2.3 2.7 3.0 3.1 3.6
1.3 2.3 2.3 2.7 3.0 3.1 3.6
1.3 2.3 2.4 2.8 3.0 3.4 4.0
1.5 2.3 2.4 2.8 3.1 3.4 4.1
1.8 2.3 2.6 2.8 3.1 3.4 4.5
1.8 2.3 2.6 2.9 3.1 3.4 4.5

a) Construya una tabla de frecuencia completa, usando la regla de Sturges.


b) Interpretar la marca de clase del tercer intervalo de clase.
c) Interpretar la frecuencia relativa del tercer intervalo de clase.

4. Tomando como base la información tomada en la pregunta 3, se encuestó también


a 35 alumnos de la facultad de Agronomía obteniéndose los siguientes resultados
en horas:

2 2 2.1 2.1 2.2 2.5 2.6


2.6 2.7 2.7 3 3 3.1 3.2
3.3 3.4 3.4 3.5 3.6 3.6 3.6
3.8 4 4 4 4.1 4.3 4.3
4.4 4.5 4.5 4.6 4.7 4.7 4.7

Construya la tabla de frecuencias comparativa entre las dos facultades. Mencionar


tres conclusiones importantes en términos del enunciado.

34
UNA La Molina - Dpto. de Estadística e Informática Estadística General

5. Los siguientes datos corresponden a la longitud de la cabeza del feto a los 45 días
de gestación de un total de 60 ovejas que produjeron un solo feto y de las cuales el
día de apareamiento es conocido. Las medidas están en mm y fueron obtenidas
con imágenes de ultrasonido:

19.4 20.4 21.0 21.6 21.9 21.9 22.0 22.1 22.1 22.2 22.3 22.3
22.6 22.7 22.7 22.7 22.8 22.9 23.0 23.1 23.2 23.2 23.4 23.6
23.6 23.6 23.7 24.0 24.0 24.0 24.0 24.0 24.1 24.1 24.3 24.4
24.5 24.6 24.7 24.7 24.8 24.8 25.0 25.0 25.0 25.2 25.3 25.3
25.5 25.5 25.5 25.6 25.6 25.6 25.8 25.9 26.0 26.4 26.9 27.5

a) Defina variable y unidad elemental.


b) Construya la tabla de frecuencias. Utilice la regla de Sturges para determinar el
número de intervalos. Presente 3 decimales para sus frecuencias relativas.
c) Interprete fr3, Fr5, F5 – F2.
d) Grafique el histograma de frecuencias y el polígono de frecuencias.

6. Una compañía manufacturera tiene a prueba a 48 nuevos trabajadores. Para evaluar


su rendimiento, se les asignó una tarea rutinaria y se midió el tiempo que tardaron
en realizarla. Los tiempos en minutos son los siguientes:

105 105 107 108 108 108 109 109 110 111 111 111
113 114 114 117 118 119 121 121 123 125 126 126
126 126 128 129 130 131 134 134 137 145 145 150
150 152 153 154 157 157 158 164 170 171 179 183

a) Construya la tabla de frecuencias. Use la regla de Sturges para determinar el


número de intervalos. Presente 3 decimales para sus frecuencias relativas.
b) Interprete F5 - F2, 1 - Fr4, fr5+fr6.

7. Se ha llevado a cabo un estudio para evaluar los volúmenes de venta (miles de


soles por día) de los establecimientos comerciales de un distrito de Lima. Para ello
se eligieron al azar 36 establecimientos encontrándose los siguientes resultados:

1.5 2.1 2.5 3.2 3.7 4.4 4.5 4.6 4.6 4.6 4.7 5.2 5.3 5.4 5.7 5.7 5.8 6.1
6.4 6.7 6.7 7.2 7.4 7.4 7.7 7.8 8.4 8.4 8.5 8.7 9.1 9.8 10.1 11.7 12.1 15.4

a) Construya la tabla de frecuencias. Use la regla de Sturges para determinar el


número de intervalos.

b) Interprete f4, F3, p5


c) Graficar el histograma y el polígono de frecuencias.

8. En una fábrica de pernos se desea estimar el número de pernos defectuosos por


caja para verificar si estos valores están dentro de los límites permisibles. Se
selecciona una muestra de 40 cajas y se obtienen los siguientes resultados:

1 1 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4
4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 7 7

a) Construya la tabla de frecuencias. Use la regla de Sturges para determinar el


número de intervalos.
b) Interprete f2, p4
35
UNA La Molina - Dpto. de Estadística e Informática Estadística General

9. Un profesor decide registrar el mes de nacimiento de cada uno de los 40 estudiantes


de su clase.

junio julio noviembre abril enero febrero septiembre


julio agosto septiembre diciembre julio junio noviembre
mayo abril febrero agosto junio mayo octubre
agosto noviembre enero junio abril septiembre diciembre
agosto junio julio marzo diciembre marzo junio
noviembre septiembre junio marzo noviembre
Construya la tabla de frecuencias, elabore e interprete el diagrama de barras.
¿Cuál es el mes que presenta la mayor y cuál la menor frecuencia de
nacimientos?

10. Un Ing. Pesquero está realizando un estudio sobre el salmón plateado con la
finalidad de introducirlo al país. Una de las variables de interés es la longitud (en
centímetros). El resultado luego de la evaluación a 45 peces elegidos al azar de
esta especie se presenta a continuación:

93.30 93.36 94.48 94.68 95.76 95.95 96.31 96.37 96.43


96.53 96.58 96.60 96.61 96.80 96.86 96.93 97.29 97.40
97.41 97.45 97.58 97.66 97.66 97.88 97.92 98.22 98.40
98.47 98.49 98.53 98.56 98.63 98.76 98.79 99.21 99.29
99.32 99.44 99.68 100.08 100.22 100.82 101.24 101.31 102.79

a) Construya la tabla de frecuencias usando la regla de Sturges.


b) Presente el polígono de frecuencias.

11. La empresa Nicronics S.A. se dedica a la venta de placas circulares plásticas de


policarbonato, que importa de Alemania, Holanda y Japón. Las cantidades
porcentuales que importa de cada país son 16%, 64% y 20% respectivamente. Las
longitudes de los diámetros de dichas placas se expresan en pulgadas y los pesos de
los mismos varían de 480 a 920 gramos. En los últimos tres meses, los clientes
nacionales, le han devuelto sus productos debido a la baja resistencia encontrada,
por ello, el área de control de calidad ha seleccionado al azar 500 placas circulares
(en cantidades proporcionales a lo que importa de cada país) y analizado en un
laboratorio, la resistencia a las ralladuras y a los impactos (en ambos casos la
resistencia puede ser alta, media o baja). Si la empresa encuentra que
efectivamente las placas no satisfacen las condiciones del cliente, se verán obligados
a cambiar de proveedores.

En base a la variable país de importación elabore un cuadro de frecuencias de la


muestra seleccionada y su respectivo gráfico

12. Una fábrica textil para su próxima campaña de verano debe decidir la fabricación de
tres tipos de diseños de polos (D1, D2 y D3). Para apoyar su decisión la gerencia de
producción realizó un estudio extrayendo una muestra aleatoria de 60 clientes
potenciales, registrándose los siguientes resultados:

 El 45.5% de los clientes prefieren el diseño D1, el 35.5% el D2 y el resto el


diseño D3.
 El 55% tienen la talla S, el 25% M y el resto L.
 El número promedios de polos que comprarían es de 1.8
 El precio promedio que pagarían es de S/. 45.5
 La edad promedio es de 35.8 años

a. De acuerdo al enunciado identifique la población de estudio, unidad elemental y


muestra.

36
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Identifique las variables, tipos, observación, estadístico o parámetro.

Variable Tipo de Variable Observación Estadístico Parámetro

13. El ministerio de la Producción está realizando un estudio sobre las embarcaciones de


pesca de la zona norte el país y que abastecen a los mercados locales. Para el
análisis seleccionó una muestra aleatoria de 32 embarcaciones en el último mes y
se registra la producción de pesca (en decenas de kgs), el tipo de embarcación y el
número de días de pesca. Los datos se presentan en la siguiente tabla:

Número de Número de
Tipo de Tipo de
Producción días de Producción días de
paquete paquete
pesca pesca
22.0 T1 4 39.8 T1 3
23.7 T1 2 40.0 T2 2
24.6 T2 2 40.3 T3 2
24.8 T2 4 40.6 T3 4
25.0 T3 2 42.8 T3 5
26.4 T3 4 43.0 T4 6
26.6 T4 6 44.1 T4 5
27.5 T3 6 44.5 T4 4
29.9 T2 2 44.8 T2 3
31.1 T1 4 45.6 T2 4
32.5 T2 3 46.0 T3 3
34.8 T3 5 46.4 T1 2
35.0 T2 6 48.0 T2 6
38.4 T4 3 52.0 T1 3
38.5 T4 3 54.0 T1 5
39.1 T3 4 56.0 T2 6
a) Con respecto a la información proporcionada, identifique la población, unidad
elemental y muestra.
b) Elabore una tabla de frecuencias sobre el tipo de embarcación y un gráfico de
barras de frecuencias porcentuales.
c) Elabore la tabla de frecuencias para la producción de pesca. Use la regla de
Sturges.
d) Interprete f4, p4, F5, y 100-P5.
e) Elabore el respectivo histograma de frecuencias porcentuales.
f) Elabore la tabla de frecuencias para la variable número de días de pesca y su
gráfico respectivo.
37
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Para graficar un polígono, en el eje de ordenadas se usa _________________ y en


el eje de abscisas _____________________.
2. Si en una tabla de frecuencias las marcas de clases: X’1=25 y X’6=75, entonces el
valor del TIC es ___________________ y el valor del LI1 es _________________.
3. El gráfico asociado a una variable cuantitativa discreta se conoce como
______________________.
4. El valor representativo de un intervalo de clase se conoce como
_________________________
5. Para graficar un histograma, en el eje de ordenadas se usa ________________ y en
el eje de abscisas _____________________.

6. La frecuencia acumulada relativa Fr4 puede ser calculada en términos de la


frecuencia relativa por ____________________ y en términos de la frecuencia
acumulada absoluta por _________________________.
7. Los gráficos que se pueden elaborar para la variable estado civil son llamados
__________________________________
8. Para los siguientes valores del TIC, halle el valor usando el redondeo por exceso
para los casos de un entero, un decimal y dos decimales.

TIC Entero Un decimal Dos decimales

4.051

12.106

35.09

9. El número de decimales del Tamaño de Intervalo de Clase (TIC), debe ser siempre
igual a _________________________________

10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F


a. Para hallar el número de intervalos de clase se aplica el redondeo por
exceso.
b. El número de decimales de la marca de clase es igual a la de las
observaciones.
c. Para una muestra de 55 clientes, la frecuencia absoluta acumulada de
la última clase es mayor a 55.
d. El gráfico circular se elabora usando las frecuencias absolutas
e. Es posible que el límite superior de la última clase sea menor que el
máximo valor.

38
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO III

MEDIDAS ESTADÍSTICAS

Las medidas estadísticas pueden ser calculadas con los datos provenientes de una
población (N: Tamaño de la población) o muestra (n: Tamaño de la muestra) para
evaluar diferentes variables (cuantitativas y cualitativas), cuya finalidad es resumir y
representar el conjunto de datos.

Muestra (n) : X 1 , X 2 ,..., X n  Valores Estadìsti cos


Poblacion ( N ) : X 1 , X 2 ,..., X N  Parámetros

Observaciones
 Las medidas estadísticas asumen las mismas unidades de medida de la variable en
estudio, con la excepción de ciertas medidas estadísticas relativas.
 Para las variables cuantitativas, se pueden calcular medidas estadísticas como:
media, mediana, moda, rango, rango intercuartílico, varianza, desviación estándar,
coeficiente de variabilidad, y otras. En el caso de las variables cualitativas, sólo es
posible calcular las medidas como la moda y la proporción.

Objetivo. Reconocer las características básicas de una distribución de datos a través de


las principales medidas de tendencia central, de posición y variabilidad.

3.1 Medidas de tendencia central


Son medidas estadísticas que se localizarían en la parte central de la distribución de los
datos. Permiten resumir y representar en un sólo valor el conjunto de datos. Las
medidas de tendencia central revisadas en este texto son las siguientes:

 La media aritmética
 La media ponderada
 La mediana
 La moda

La media aritmética o Promedio


La media aritmética simple o promedio de un conjunto de datos provenientes de una
población (N) o muestra (n), es igual al cociente entre la suma total de sus valores y el
número de observaciones.

1 N 1 n
Media poblacional:  Xj
N j 1
Media muestral: X  Xj
n j 1

Ejemplo 1
Suponga que se tiene los datos de las ventas semanales (en dólares) de una muestra
de 8 vendedores. Calcule la venta promedio semanal.

150 120 300 280 350 250 160 280

Solución
1 8 150  120  300  280  350  250  160  280 1,890
X 
8 i 1
xi 
8

8
 236.3

La venta promedio semanal por vendedor fue de $ 236.3

39
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 1. Los siguientes datos corresponden a una muestra de 12 apicultores sobre


su producción de miel anual (Kgrs.) por colmena. Halle e interprete la media.

250.5 320.0 345.5 260.4 358.2 268.5 380.1 410.2 430.4 480.3 410.3 420.1

Propiedades:

1. La media está afectada por valores extremos (altos o pequeños). Es una desventaja
de la media.
2. La media aritmética localiza la parte central de un conjunto de observaciones.
3. Para un conjunto de observaciones la media es única.
4. Si la media sustituye a cada observación, la suma total no cambia.
5. La suma de las desviaciones de las observaciones con respecto al promedio es igual

 X 
n n
a cero. j  X  X j n X  n X  n X  0
j 1 j 1
6. La suma de los cuadrados de las desviaciones de las observaciones con respecto a

 X    X  c  , donde c  R
n 2 n
2
la media es mínima: j X j
j 1 j 1

Ejemplo 2
Los siguientes datos corresponden a los ingresos mensuales de dos grupos de
empleados:

Grupo Ingreso x
A 520 525 518 523 545 580 510 500 527.625
B 530 545 520 8000 580 590 560 600 1490.625
1 8 4221
Propiedad 1. Para A : X  
8 i 1
Xi 
8
 527.625

1 8 11925
Para B : X  
8 i 1
Xi 
8
 1490.625

En el grupo A el promedio es similar a los 8 valores (promedio representativo),


mientras que en el grupo B eso no ocurre (el valor 8000 es un dato extremo alto).
8 8

Propiedad 5. Para A : (X


i 1
i  X )  X i  n X  4221  8 x527.625  0
i 1
8 8
Para B : (X
i 1
i  X )  X i  n X  11925  8 x1490.625  0
i 1
8 8

(X  X ) 2  X i2  n X 2231403  8 x527.6252  4297.875


2
Propiedad 6. Para A : i
i 1 i 1
8 8
c  510 : (X
i 1
i  c) 2  X i2  nc 2 2231403  8 x510 2  150603
i 1
8 8

(X  X )  X  n X 66206425  8 x1490.6252  48430721.88


2 2 2
Para B : i i
i 1 i 1
8 8
c  510 : (X
i 1
i  c) 2  X i2  nc 2 66206425  8 x510 2  64125625.00
i 1
40
UNA La Molina - Dpto. de Estadística e Informática Estadística General

La media aritmética ponderada

La media ponderada de un conjunto de observaciones x1 , x2 , ... , xk con pesos o

ponderaciones w1 , w2 , , wk está dada por:


k

x
j 1
j wj
x1 w1  x2 w2   xk wk
xp  
k
w1  w2   wk
w
j 1
j

La media ponderada se usa en aquellos casos donde las observaciones tienen diferente
importancia dentro de una población o muestra.

Casos particulares:
k k

 Cuando los datos se encuentran en una tabla f


j 1
j xj f
j 1
j xj
de frecuencias correspondiente a una variable xp  k

cuantitativa discreta. La media se calcula por:
f
n
j
j 1

k
 Si x1 , x2 ,..., xk son las medias de k grupos y n
j 1
j xj
cada grupo tiene tamaño n1 , n2 ,..., nk xp  k
respectivamente, entonces la media de todos n j
los datos n  n1  n2  ...  nk se calcula por:
j 1

Ejemplo 3
Un empresario que vende ropa para Caballeros, posee dos tiendas, administradas por
Gerentes contratados, los ternos vendidos por estas tiendas son comprados a un
proveedor a un costo de 150 nuevos soles

 La tienda A vendió 95 ternos al precio original de 400 nuevos soles, luego de esto
en una oferta vendió 126 ternos a 280 nuevos soles y por cierre de temporada
vendió los 79 ternos restantes a 200 nuevos soles.
 La Tienda B, ha vendido el 30% de sus ternos a 400 nuevos soles, el 40% a 300
nuevos soles y el resto al precio de costo.

a. ¿Cuál ha sido el precio promedio por terno vendido en la tienda A?

Media de A: (95*400+126*280+79*200)/(95+126+79)= 296.9333

b. Considerando el precio promedio por terno vendido como indicador de buena


administración, ¿Cuál de ellas ha sido mejor administrada?

Media de B: 0.3*400+0.4*300+0.3*150 = 285. La tienda A pues tiene un precio


promedio mayor que la de B

c. Si la tienda B recibió el doble de cantidad de ternos para vender que la tienda A.


¿Cuál es el precio promedio por terno vendido considerando ambas tiendas?

Media de A y B: (300*296.933+600*285)/(900) = 288.98

41
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 2. En la siguiente tabla se presenta la distribución del número de parcelas


que poseen para una muestra de 50 agricultores de la sierra central.

Número de parcelas Número de agricultores


Xi fi
1 15
2 8
4 12
5 10
6 5
Total 50
Halle e interprete el número promedio de parcelas que tienen por agricultor.

Ejercicio 3. Los tiempos promedios de tardanza (minutos) de muestras de 40, 25 y 15


empleados de los turnos de día, tarde y noche fueron 8.5, 12.0 y 15.5 respectivamente.
Hallar el tiempo promedio de tardanza de los trabajadores para los tres turnos.

42
UNA La Molina - Dpto. de Estadística e Informática Estadística General

La mediana

La mediana es el valor que ocupa la posición central de un conjunto de datos,


previamente ordenados: X (1) , X ( 2) ,..., X ( n ) . La mediana poblacional se representa por
Me y la mediana muestral por me.

n  impar , me  X n 1
( )
 2

Si  X n X n
 ( ) ( 1)

 n  par , m  2 2
 2
e

 n  1 
 100   50  Entero  E   me  x E 
 
Otra forma: Si 
 n  1   50  Decimal  E.d   me  x  0.d  x

 100 
 E  E 1  x E   
Ejemplo 4
Los siguientes datos corresponden a los pesos (en Kg.) de 10 personas: 50, 77, 53, 76,
63, 64, 75, 54, 52, 80. Calcule la mediana

Datos ordenados: 50, 52, 53, 54, 63, 64, 75, 76, 77, 80

X 10 X 10
( ) ( 1) 63  64
n  10 par , me  2 2
  63.5
2 2
 10  1 
Otra forma :  50  5.5  me  x5   0.5  x6   x5    63  0.5  64  63  63.5
 100 
Interpretación. Un 50% de personas pesan menos de 63.5 Kg. y el otro 50% pesa más
de 63.5 Kg.

Ejercicio 4. En un estudio del medio ambiente para evaluar la calidad de aire, se


registró el número de microgramos de partículas en suspensión por mt 2 de aire para
muestras evaluadas en dos zonas.

Zona A 38 32 45 30 24 45 42 18 28
Zona B 25 28 25 32 26 35 54 38

Halle e interprete la mediana del número de microgramos de partículas en suspensión


por mt2 de aire para cada zona.

43
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Propiedades:

1. La mediana divide las n observaciones en dos partes iguales. El 50% con valores
menores a la mediana y el otro 50% con valores mayores a la mediana.
2. La suma de las desviaciones absolutas de las observaciones con respecto a la
n n
mediana es un valor mínimo. X
j 1
j  me   X j  c , donde c  R
j 1
3. La mediana no está influenciada por valores extremos.

Ejemplo 5
Los siguientes datos corresponden a los ingresos mensuales de dos grupos de
empleados:

Grupo Ingreso me
A 520 525 518 523 545 580 510 523
B 530 545 520 8000 580 590 560 560

Comente las medianas de los dos grupos.

Solución
Se observa que la mediana no está afectada por el valor extremo 8000, como es la
media.

La moda

La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia. La


moda poblaciones se representa por Mo y la moda muestral por mo.

Propiedades:
1. La moda puede no existir o puede haber más de una moda en un conjunto de
datos.
2. La moda no está afectada por valores extremos.
3. Se aplica tanto para información cualitativa como cuantitativa.

Ejemplo 6
1. Se tiene las longitudes de peces de río (cm) de la zona A: 4.0, 4.1, 4.2, 4.3, 4.5,
4.7, 4.8. No hay moda.
2. Las siguientes longitudes sonde la zona B: 4.0, 4.1, 4.1, 4.1, 4.2, 4.2, 4.5, 4.2.
Se distinguen dos modas mo1 = 4.1 y mo2 = 4.2 (distribución bimodal).

Ejercicio 5. Se tiene una muestra de los niveles de ozono alrededor de una ciudad
(220 partes por billón). Halle e interprete la moda.

160 124 156 164 178 163 163 178 164 185 196 164 170 145 164

44
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 6. En una encuesta realizada a una muestra de estudiantes de una


universidad, se les preguntó por el club deportivo de su preferencia. Los datos se
muestran en la siguiente tabla de frecuencias. Halle e interprete la moda.

Club de preferencia Número de estudiantes


Alianza Lima 230
Universitario 240
Sporting Cristal 80
Sport Boys 45

Ejercicio 7. En la siguiente tabla se presenta el número de cursos matriculados en el


presente semestre para una muestra de 300 alumnos.

Número de cursos Número de


matriculados alumnos
2 20
3 40
4 100
5 80
6 60

Halle e interprete la media, mediana y moda.


Sugerencia:
k

X i fi
Use la expresión: X  i , donde k es el número de clases y n el tamaño de
n
la muestra.

45
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Propiedades de transformación

Para una nueva variable transformada: Yi  a  bX,i donde a y b son constantes reales.
Entonces, sus medidas estadísticas son calculadas:

Medida estadística Yi  a  bX i

Media Y  a  bX
Mediana meY  a  bmeX
Moda moY  a  bmoX

Ejemplo 7
En un parque de atracciones la media de los gastos por visitante un día especial es de
S/.40, sabiendo que los adultos gastaron una media de S/.43 y los niños S/.35.

a. Calcule el número de adultos y niños que visitaron el parque, si en total fueron 400
personas.
n Adultos * x Adultos  nNiños * x Niños n Adultos * 43  nNiños * 35
xp    40
Se tiene: n Adultos  nNiños 400
n Adultos  nNiños  400
Entonces: nAdultos  150 y nNiños  250
b. Si los gastos por asistir al parque de atracciones se incrementaron en un 10% en el
caso de los adultos y en un 5% en el caso de los niños. ¿Cuál será ahora el
promedio de los gastos por visitante?
y Adultos  1.1* x Adultos  1.1* 43  47.3  150 * 47.3  250 * 36.75
 yp   40.76
y Niños  1.05 * x Niños  1.05 * 35  36.75 400

Ejercicio 8. La gerencia de marketing ha decidido aumentar 10% los precios de los


ternos en la sucursal Sur pero restando 90 nuevos soles, mientras que en la sucursal
Norte disminuir en 4.5% los precios de los ternos y en la sucursal Centro aumentar 125
nuevos soles cada terno. A continuación se presenta las medidas estadísticas de los
precios de las sucursales obtenidas con MINITAB. Halle las medidas estadísticas de los
nuevos precios de los ternos para la sucursal Sur, Norte y Centro
.
Estadísticas descriptivas: Sucursal Sur; Sucursal Norte; Sucursal Centro
N para
Variable N N* Media Mínimo Mediana Máximo Moda moda
Sucursal Sur 15 0 450,5 345,0 450,0 650,0 450 3
Sucursal Norte 15 0 582,3 320,0 580,0 910,0 600 2
Sucursal Centro15 0 500,3 310,0 550,0 810,0 550 3

46
UNA La Molina - Dpto. de Estadística e Informática Estadística General

3.2 Percentiles (Pq)

El percentil Pq divide a un conjunto ordenado de observaciones en un q% menores que


Pq y un (100 – q)% mayores que Pq. El percentil Pq es un valor expresado en las
mismas unidades que la variable en estudio.

Cálculo del Percentil


 n 1
Posición   q ,
 100 
 n  1 
 100   q  Entero  E   Pq  x E 
 
Si 
 n  1   q  Decimal  E.d   P  x  0.d  x
 100  q E 
 E 1  x E  

Ejemplo 8
Se cuenta con los datos de los tiempos (en minutos) de tardanza de los trabajadores de
una compañía de seguro. Halle e interprete el percentil 45.

15 12 18 22 24 10 9 13 25 18 6 14

Datos ordenados: 6, 9, 10, 12, 13, 14, 15, 18, 18, 22, 24, 25

 12  1 
Posición     45  5.85  P45  x5   0.85  x6   x5    13  0.85  14  13  13.85 min utos
 100 

Interpretación: El 45% de los trabajadores tienen un tiempo de tardanza menor


13.85 minutos y el otro 55% más de 13.85 minutos.

47
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 9. Suponga que se quiere evaluar el número de insectos encontrados en 40


parcelas, en un cultivo de maíz. Los resultados fueron los siguientes:

1 2 3 5 6 7 9 9 12 18
1 3 5 5 6 7 9 11 12 18
1 3 5 5 6 8 9 11 15 19
2 3 5 6 6 8 9 11 18 23

a. Halle e interprete el percentil 35

b. ¿Cuál debe ser el valor mínimo de insectos para que una parcela sea considerada
dentro del 18% de las parcelas con mayores números de insectos?

c. ¿Cuál debe ser el valor máximo de insectos para que una parcela sea considerada
dentro del 22% de las parcelas con menores números de insectos?

d. ¿Para qué valores del número de insectos se tendrá el 80% central de parcelas?

Ejercicio 10. Se tiene las notas de los promedio ponderados de los estudiantes
graduados en el último ciclo. Halle el promedio ponderado mínimo para que un alumno
sea considerado dentro del quinto superior.

10.5 10.9 11.2 11.3 11.5 11.5 11.7 12.8 12.9 13.6 13.7 13.9 14.0 15.6

48
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Cuartiles

Son percentiles que dividen el conjunto de datos en 4 partes iguales (25% cada una).
Son conocidos también como Q1=P25, Q2=P50 y Q3=P75.

Ejemplo 9
Los siguientes datos corresponden a los pesos, en Kg. de 10 personas: 50, 52, 53, 54,
63, 64, 75, 76, 77, 80.

a. Calcule e interprete el percentil 25


P25  x 101   x2.75  x2   0.75  x3  x2    52  0.75  53  52  52.75 Kg
 25
 100 
Interpretación: El 25% de las personas pesa menos de 52.75 Kg. y el otro 75%
pesa más de 52.75 Kg.

b. Halle el percentil 75
P75  x 101   x8.25  x8   0.25  x9   x8    76  0.25  77  76  76.25 Kg
 75
 100 
Interpretación: Un 75% de personas pesa menos de 76.25 Kg. y el otro 25% pesa
más de 76.25 Kg.

Ejemplo 10
Se ha desarrollado un experimento para evaluar el efecto de alimentos balanceados en
la ganancia de pesos de pollos. Una muestra aleatoria de 30 pollos que recibieron el
alimento balanceado fue seleccionada. Al cabo de 10 días se registraron las ganancias
de pesos (en gr)

93 98 100 102 107 109 110 110 111 111 113 114 115 116 118
118 119 119 120 120 120 124 125 128 129 129 130 135 138 141
a. Halle e interprete las medidas de tendencia central para la ganancia de peso.
b. ¿Cuál es el peso mínimo de un pollo que fue alimentado con el alimento balanceado
para estar en el 10% superior de los que pesan más?
c. ¿Cuál es peso máximo del 60% de pollos que pesan menos con el alimento
balanceado?

Solución:
a)
N Media StDev CoefVar Minimo Q1 Mediana Q3 Maximo
30 117,40 11,57 9,85 93,00 110,00 118,00 125,75 141,00

La ganancia de peso por pollo alimentado con A es de 117.4 gr.


El 50% de los pollos alimentados con A tuvieron ganancias de peso menores de 118
gr. y el restante 50% tuvieron ganancias de peso mayores a 118 gr.
El valor de la ganancia de peso más frecuente es de 120gr.

b) P90  X 27.5  134.5gr.


c) P60  X 18  119 gr.

49
UNA La Molina - Dpto. de Estadística e Informática Estadística General

3.3 Diagrama de Tallos y Hojas

Un diagrama de tallos y hojas es un ingenioso artificio que ofrece una representación


parecida a un histograma. La ventaja de este diagrama es que no sólo muestran las
frecuencias sino que contienen los valores reales. A diferencia de las tablas de
frecuencias con este procedimiento ningún dato se pierde.

Pasos para elaborar un diagrama de tallos y hojas

Paso 1. Cada dato se divide en dos: la primera se llama tallo y la segunda hoja.
Paso 2. Cada tallo se forma con uno o más dígitos iniciales de cada dato y las hojas se
forman con los dígitos restantes (generalmente de un solo dígito).
Paso 3. Los tallos se presentan en una columna ordenada de menor a mayor
Paso 4. Las hojas se muestran en filas ordenadas y listadas a la derecha de su
respectivo tallo.

Nota.-
 En caso de datos decimales, al construir el diagrama de tallos y hojas el punto
decimal se pierde, por tal razón se acostumbra indicar unidades que los datos del
tallo representan. Por ejemplo para un dato: 4.12 Unidad de Hoja=0.01
 Es necesario pone todos los tallos consecutivos. Si no existe el dato, se pone el valor
del tallo y en la fila de hoja se deja en blanco.
 Si es necesario se divide en dos hojas cada tallo, según los rango: (0 – 4) y (5 – 9).

Ejemplo 11
Los siguientes datos corresponden a la estatura de una muestra de 30 alumnos
universitarios.

158, 159, 161, 161, 163, 163, 164, 166, 166, 167, 168, 168, 168, 169, 170, 170, 170,
171, 171, 171, 172, 173, 174, 174, 174, 174, 174, 177, 182, 191

Diseño de Tallo y Hoja: Estatura

Tallo y Hoja de Estatura n = 30 Profundidad


Unidad de hoja = 1.0
Tallos

2 15 89
7 16 11334 Hojas
14 16 6678889
(13) 17 0001112344444
3 17 7
2 18 2
1 18
1 19 1
El diagrama de tallos y hojas representa la estatura de 30 alumnos. Existen tres partes
en el gráfico.
 La primera columna representa la profundidad
 La segunda columna representa los tallos
 La última columna representa las hojas.

Cada dígito de las hojas representa una observación.

El diagrama de tallos y hojas muestra 8 tallos con sus respectivas hojas. El primer tallo
es 15 y la primera hoja es 8. La observación correspondiente es 158 que se obtuvo
juntando los dígitos del tallo y de la hoja y se multiplica por la unidad de hoja
(158*1.0=158).

50
UNA La Molina - Dpto. de Estadística e Informática Estadística General

La primera columna (la profundidad) indica cuantas observaciones hay en esa línea o
antes. El número 14 en la tercera línea indica que hay 14 observaciones en esa línea y
en las líneas anteriores (14 observaciones menores o iguales a 169). Hay una línea
especial, la línea que contiene la mediana. El valor que muestra es encerrado entre
paréntesis e indica cuantas observaciones hay en esa línea. A partir de la siguiente línea
que contiene la mediana, la columna de profundidad indica cuantas observaciones hay
en esa línea y en las líneas posteriores. El número 3 en la quinta línea indica que hay 3
observaciones en esa línea y en las líneas posteriores (3 observaciones mayores o
iguales a 177).

La séptima línea muestra al tallo 18 (1 18 ); sin embargo no tiene ninguna hoja,


lo que significa que no hay ninguna observación en ese tallo. (Un error muy frecuente
es considerar el tallo 18 y la hoja 0 y por consiguiente considerar la observación 18.0
con lo que se tendrían 31 observaciones).

Ejercicio 11. Se tiene una muestra de pacientes sobre el tiempo (minutos) de


concentración de un medicamento: 105, 126, 120, 119, 133, 145, 123, 108, 136, 156,
142, 130, 112, 123. A continuación se presenta su respectivo diagrama de tallos y
hojas.

Tallo y hoja de Tiempo N = 14


Unidad de hoja = 1.0

2 10 58
3 11 2
4 11 9
7 12 033
7 12 6
6 13 03
4 13 6
3 14 2
2 14 5
1 15
1 15 6

a. Si se desconocen los datos originales, calcule la media, mediana, moda y P28 a


partir del diagrama de tallos y hojas.

51
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 12. Se tienen datos de las concentraciones de lactato en la sangre


(milimoles/litros) para una muestra de pacientes:

2.1, 2.5, 2.8, 3.5, 3.6, 3.8, 3.8, 4.6, 5.2, 5.4, 5.6, 5.9, 6.2, 6.5, 6.5

A continuación se presenta su respectivo diagrama de tallos y hojas.

Tallo y hoja de Concentracion N = 15


Unidad de hoja = 0.10

1 2 1
3 2 58
3 3
7 3 5688
7 4
(1) 4 6
7 5 24
5 5 69
3 6 2
2 6 55

a. A partir del diagrama de tallos y hojas calcule e interprete la media, mediana y


moda.

52
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 2

1. El uso de fertilizantes inadecuados conduce a la acumulación de sales en el suelo y


debe ser evitado, pues estas sales impiden el crecimiento normal de las plantas. Un
ingeniero agrónomo ha sembrado semillas de frejol en dos áreas de cultivo, cada una
de las cuales ha recibido un fertilizante diferente a los que llamaremos A y B. Varias
semanas después toma una muestra aleatoria de plantas de frijol en cada área de
cultivo y mide la altura (en cm) de las mismas. Algunos datos y resultados se
muestran a continuación:

Fertilizante A Fertilizante B

Tallos y Hojas de A N = 29
Tabla 2: Alturas de planta de frijol al usar el
Leaf Unit = 1.0
fertilizante B
1 3 9
12 4 00011111111 45 42 39 45 41
(5) 4 22223
12 4 45555 46 42 41 45 45
7 4 667 48 48 41 45 47
4 4 889
1 5 49 49 42 46 48
1 5 51 51 42 46 49
1 5 5
52 53 47 47 53
29

y  1261 30

y
i
i 1 i  1385
i 1

a. Calcule e interprete las medidas de tendencia central para la altura de las plantas de
frijol cuando se utiliza el fertilizante A.

b. Calcule la altura más frecuente de las plantas de frijol que reciben el fertilizante B.

53
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. Si en una zona agrícola con mayor pH se espera que la altura de las plantas con el
fertilizante A tengan un incremento del 12.5% y con el fertilizante B una disminución
del 2.5%, calcule la altura promedio considerando los dos fertilizante para esta zona
agrícola.

d. Calcule la altura promedio del 20% de las plantas de frijol más altas y que reciben el
fertilizante B.

e. El 10% de las plantas con menores alturas es catalogado como grupo de “plantas
enanas”, mientras que el 12% de las mayores alturas como “plantas gigantes” y el
porcentaje restante como “plantas de altura normal”. Determine los intervalos de altura
que debe tener una planta que recibe el fertilizante A para ser considerada enana y
una planta receptora del fertilizante B para ser considerada gigante.

54
UNA La Molina - Dpto. de Estadística e Informática Estadística General

2. El Instituto Nacional de Innovación Agraria (INIA) reporta que una plaga está afectando
considerablemente a las plantas de yuca en el distrito de Tocache (selva del Perú), esta
plaga daña la yuca afectando principalmente a su peso. En el siguiente cuadro se
muestra la distribución de frecuencia del número de hojas amarillas (afectadas) para
una muestra de 35 plantas de yuca:

Número de hojas afectas por la plaga


Número de Hojas fi fri
0 3 0,09
1 4 0,11
2 5 0,14
3 9 0,26
4 7 0,20
5 6 0,17
6 1 0,03
35

Halle e interprete la media, mediana, moda y el el 40% central del número de hojas
amarillas.

55
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. En una empresa, el jefe de Recursos Humanos está interesado en analizar el


impacto en los empleados al suprimir las horas extras de trabajo pagadas. Con este
fin se extrae una muestra aleatoria de 60 empleados tomando los datos de un día al
azar. A continuación se muestran las horas de trabajo por día de cada empleado.

Horas diarias trabajadas


7.6 7.7 8.0 8.0 8.0 8.1 8.1 8.2 8.2 8.2 8.2 8.2 8.2 8.3 8.3
8.3 8.4 8.4 8.4 8.4 8.5 8.5 8.5 8.6 8.6 8.7 8.7 8.7 8.8 8.8
8.9 8.9 8.9 9.0 9.1 9.1 9.3 9.4 9.6 9.7 9.7 9.8 9.9 9.9 10.0
10.0 10.3 10.5 10.5 10.6 10.8 11.0 11.2 11.6 11.7 12.2 12.5 12.9 13.3 14.5

a) Construya el diagrama de tallos y hojas, considere como unidad de hoja 0.10


b) Calcule e interprete la media mediana y moda
c) Calcule el número mínimo de horas trabajadas para que un empleado se
encuentre en el 17% de los empleados que más horas trabajan.

2. El banco “Nuevo Continente” cuenta con sucursales en La Molina y Los Olivos. El


gerente de crédito selecciona al azar algunas solicitudes de préstamo que han sido
aceptadas en cada una de las sucursales y resume de manera independiente la
información correspondiente al monto de préstamo otorgado (en miles de nuevos
soles) en los siguientes diagramas de tallos y hojas:

Tallo y Hojas de La Molina N = 13 Tallo y Hojas de Los Olivos N = 14


Unidad de Hoja = 0.10 Unidad de Hoja = 0.10

1 4 3 1 2 6
4 4 678 3 3 01
(4) 5 2244 3 4
5 5 5 5 5 08
4 6 4 5 6
3 6 99 7 7 14
1 7 4 7 8 5
6 9 069
3 10 1
2 11 45

a) Calcule e interprete las medidas de tendencia centra para la sucursal de La


Molina.
b) ¿Entre qué valores se encuentra el 60% central de las observaciones
correspondientes a la sucursal de Los Olivos?
c) El Interés que cobra el banco corresponde al 5% del monto otorgado como
préstamos más 20 nuevos soles por gastos administrativos. Halle el interés
medio que percibirá el banco debido a los préstamos otorgados

3. Si 80 artículos tienen un peso promedio de 2.54 Kg y se sabe que el instrumento de


medición utilizado no estaba calibrado ocasionando que el peso de los artículos
tengan un 25% más de su peso verdadero. Halle el verdadero peso promedio.
(aplique propiedades en la solución)

56
UNA La Molina - Dpto. de Estadística e Informática Estadística General

4. Una fábrica tiene una máquina que trabaja las 24 horas del día en tres turnos de 8
horas (mañana, tarde y noche). Los costos de producción por hora (en soles) y los
tiempos de producción por artículo que dependen del turno. Los datos se presentan
a continuación:

Turno Costo de producción Tiempo por hora de


por hora (S/.) consumo
Mañana 40 0.50
Tarde 50 0.40
Noche 20 0.32

a) Calcule el costo promedio de producción por hora.


b) Calcule el tiempo promedio de producción por artículo al día

5. Del ejercicio anterior. Suponga que un trabajador que labora con la máquina en la
mañana cobra 36 soles, un trabajador que labora en la tarde cobra 40 soles, y un
trabajador que labora en la noche cobra 50 soles diarios. ¿Cuál es el costo promedio
por hora que tiene la fábrica considerando la labor del trabajador y el costo de
producción de energía eléctrica?

6. En una fábrica de camisas se estudió la variable definida como el número de


camisas defectuosas que se produce cada hora. Fue seleccionada una muestra de 80
horas, encontrándose la siguiente información:

X 0 1 2 3 4
fi 50 12 8 7 3

Si la producción por hora es de 40 camisas y cada camisa buena genera una


utilidad de 120 soles además cada camisa defectuosa da lugar a una pérdida de 40
soles. Calcule la utilidad neta promedio por día (Considere 6 horas de trabajo
efectivo por día).

7. Una empresa dedicada a la fabricación de electrodomésticos desea evaluar el número


de un determinado componente eléctrico que sus trabajadores pueden ensamblar en
un día. Con tal fin se registra el número de componentes eléctricos ensamblados por
20 trabajadores del turno de la mañana. Los resultados son los siguientes:

6 7 7 7 7 8 8 8 8 8
9 9 9 9 9 9 10 10 10 11

a) Calcule e intérprete las medidas de tendencia central.


b) La empresa le paga al trabajador 4 soles por componente si este ensambló 8 o
menos y 5 soles si ensambló 9 o más. Calcule el ingreso promedio en ese día
para los dos grupos de trabajadores. Calcule el ingreso promedio en ese día para
el total de trabajadores.

8. Suponga que se quiere evaluar el número de insectos encontrados en 40 parcelas,


en un cultivo de frijol. Los resultados fueron los siguientes:

2 19 3 3 19 3 9 3 9 9 3 5 2 5 5 1 5 1 1 5
5 6 6 18 18 6 6 18 6 11 11 11 11 7 7 7 8 12 8 12

a) Halle e intérprete: Media, Mediana y Moda


b) Si se considera que el costo por eliminación de un insecto es de
aproximadamente 2 soles además del alquiler del equipo que es una cantidad
fija de 50 soles, hallar el costo promedio para la eliminación de los insectos.
57
UNA La Molina - Dpto. de Estadística e Informática Estadística General

9. La siguiente información corresponde al número de emergencias que atendió el


cuerpo de bomberos en los últimos 30 días:

3 5 3 4 1 2 3 2 4 5 7 1 3 4 2
2 1 5 2 2 4 6 7 4 7 6 4 6 4 3

a) Calcule e intérprete las medidas de tendencia central.


b) El cuerpo de bomberos gasta en combustible 18 soles por emergencia atendida y
recibe un presupuesto de 120 soles diarios. ¿Es este presupuesto suficiente? Si
así fuera, ¿cuánto dinero sobra diariamente en promedio?. En caso contrario,
¿cuánto dinero falta diariamente en promedio?

10. Parra evaluar la efectividad de sus empleados, una empresa dedicada a la venta de
teléfonos celulares ha recopilado la siguiente información sobre el número de
teléfonos vendidos en la última semana por sus 64 empleados:

Número de empleados 13 15 16 8 5 4 3
Número de ventas 5 6 7 8 9 10 11

a) Calcule e intérprete las medidas de tendencia central.


b) La empresa le paga a sus empleados 100 soles semanales más una comisión de
40 soles por celular vendido y sobre estos ingresos los empleados deben aportar
el 15% a su AFP. Calcule el promedio para el ingreso neto promedio semanal por
empleado.

11. Se encuestó a 84 congresistas de cierto país para averiguar el número de viajes


internacionales que realizan por año, obteniéndose los siguientes resultados:

Tallo y Hojas de Viajes N = 84


Unidad de Hoja = 1.0
(46) 0 6666666666666677777777777777788888889999999999
38 1 000000011111112222233344
14 1 55566667789
3 2 034

Calcule las medidas de tendencia central para estos datos. Interpretar: Media,
Mediana y Moda.

12. Se realizó un estudio en la provincia de Tambo Grande (Piura), luego de la


aplicación de un nuevo abono en el cultivo de dos variedades de mango: Kent y
Haden. Los rendimientos en la producción obtenidos luego de la cosecha en Kg/Ha
fueron los siguientes:

Variedades
Variedad Kent Variedad Haden
N° de N° de
Rend. Rend. Tallo y Hoja de Haden N = 22
Ha Ha
1 9.0 12 13.1 Unidad de Hoja = 0.10
2 11.9 13 13.2 8 10 22388999
(6) 11 266888
3 12.6 14 13.5
8 12 2233
4 12.6 15 13.5 4 13 344
5 12.6 16 13.7 1 14
6 12.8 17 13.8 1 15
7 12.8 18 13.8 1 16 5
8 12.8 19 14.1
9 12.9 20 14.1
10 12.9 21 14.3

Calcule e interpretar las medidas de tendencia central para estos datos.

58
UNA La Molina - Dpto. de Estadística e Informática Estadística General

i. Se desea analizar la cantidad de hormona llamada ecdisona que se obtiene a partir


de una conversión química del colesterol que presentan los crustáceos. Esta
hormona es la encargada de llevar a cabo el proceso de muda en los crustáceos.
Para el estudio se utiliza 20 individuos de la especie Cyclograpsus cinereus. Los
resultados del nivel de ecdisoma (en ml) son los siguientes:

Nivel de ecdisona (ml)


31.4 56.7 77.73 89.8 95.8
39.4 58.2 85.5 93.6 97.4
47.6 65.3 68.8 94.7 99.3
50.5 66.5 88.2 95.5 99.5

a. Calcule e interprete la media, mediana y moda del nivel de ecdisona.


b. Se desea clasificar a los individuos tres grupos según sus niveles de ecdisona
(Bajo, Medio y Alto), de tal manera que contengan al 40%, 50% y 10% de
individuos respectivamente. Calcule los niveles de ecdisoma que permitan
identificar los límites de cada grupo.
c. A fin de mejorar el proceso de muda de los crustáceos, se han ensayado dos
tipos de dosis (A y B). Con el tipo A, se espera que el nivel de ecdisoma se
incremente en un 12.5% pero con un reducción de 5.6 ml por cada individuo,
mientras que con la dosis B, los niveles de ecdisoma disminuirán en un 4.5%
pero más 8.5 ml por cada individuo. ¿Cuál de las dos dosis proporcionaría los
mayores niveles promedios de ecdisoma en los crustáceos?. Justifique su
respuesta.

ii. En un reservorio en la zona agrícola de Huachipa se realiza la crianza de peces


Tilapia, los cuales son vendidas diariamente a los pobladores de alrededor. Se
muestra a continuación en un diagrama de tallos y hojas el peso en Kg. de venta de
esta especie de pez durante un mes.

Tallo y hoja de Concentracion N = 31


Unidad de hoja = 0.10

1 4 2
1 4
7 5 223344
10 5 5566
(12) 6 112233444444
8 6 8999
4 7 344
1 7 9

Halle e interprete la media, mediana, moda y el percentil 32.5

59
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Las medidas de tendencia central que no están influenciadas por valores atípicos
son _______________________________________.
2. ___________________ es una medida de tendencia central que está afectada por
los valores extremos.
3. __________________ es una medida de tendencia central utilizada para resumir
datos provenientes de un variable tipo cualitativa.
4. En una muestra de 80 estudiantes, el 60% ha perdido un celular, el 20% dos
celulares, el 15% tres celulares y el resto ningún celular en los últimos dos años.
Entonces el percentil 56 es igual a ____________________________.
5. La suma de las desviaciones de las observaciones respecto a la media aritmética, es
igual a _____________________.
6. La suma de las desviaciones absolutas de las observaciones con respecto a la
________________________ es un valor mínimo.
7. Los resultados de una encuesta sobre el porcentaje de satisfacción de sus clientes
para dos empresas de seguro (A y B) se muestran en el siguiente cuadro:

Satisfacción Empresa A Empresa B


Alta 30% 40%
Media 40% 35%
Baja 20% 15%
Muy baja 10% 10%

Para comparar donde hay mayor satisfacción de los clientes en las empresas A y B,
la medida de tendencia central usada es ____________________ y cuyos valores
usados son __________________________ respectivamente.
8. Una empresa aseguradora de autos ofrece a sus clientes cuatro planes de seguros
(A, B, C y D), siendo el costo anual de 650, 520, 450 y 380 (nuevos soles)
respectivamente. Si el 45% de sus clientes tienen el plan de seguro A, el 35% el B,
el 15% el C y el resto el plan D. El costo promedio de los cuatro planes de seguro
para la empresa aseguradora es igual a _____________________________
n

9. Si X  10.5, entonces :  ( X i  10.5) , es un valor _______________________.


2

i 1
10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F


a. Las medidas de tendencia central, asumen como unidad de medida la
misma que la variable en estudio.
b. Los percentiles están afectados por valores extremos
c. La mediana y el percentil 50 no siempre son iguales
d. La media puede tomar un valor negativo
e. Las medidas de tendencia central son calculadas sólo con los datos de
una muestra.

60
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO IV

MEDIDAS DE VARIABILIDAD O DE DISPERSIÓN

Son medidas estadísticas que permiten conocer el grado de dispersión o variabilidad


(homogeneidad o heterogeneidad) dentro de un conjunto de datos. Se usan para
comparar la variabilidad entre dos o más conjuntos de datos. Cuando los datos
presentan baja variabilidad, se dice que son homogéneos y cuando presentan alta
variabilidad se dice que son heterogéneos.

Objetivos. Calcular e interpretar las principales medidas de variabilidad para describir


las características (variables) cuantitativas de las unidades elementales en términos de
su dispersión.

Las principales medidas de variabilidad son las siguientes:

1. La amplitud o rango
2. El rango intercuartil
3. La variancia y la desviación estándar
4. El coeficiente de variabilidad

Ejemplo 1
Suponga que las notas de la primera práctica de tres grupos del curso de Estadística
General fueron:
Grupo Notas x
A 14 14 14 14 14 14 14 14 14 14 14
B 14 13 15 14 12 15 16 13 12 16 14
C 19 8 19 11 16 18 6 13 10 20 14

Analice las notas promedios de los tres grupos de Estadística general.

Solución
Del cuadro se observa que:
a. Los grupos A, B y C tienen la misma media pero diferente dispersión en torno a la
media.
b. Respecto a la variabilidad o dispersión: A < B < C
c. Respecto a la homogeneidad : A > B > C
d. Respecto a la confiabilidad de la media: A > B > C

4.1 Principales medidas de variabilidad

El rango

El rango o amplitud de un conjunto de observaciones es igual a la diferencia entre el


valor máximo y el valor mínimo.

R = Xmax - Xmin
Desventajas:
a. Queda afectada por valores extremos
b. No mide la variabilidad de los datos intermedios

Ejemplo 2
El rango de la nota para el grupo B es: RB = 16 – 12 = 4 puntos.

Indica que la amplitud de la nota de la primera práctica del grupo B fue de 4 puntos.

61
UNA La Molina - Dpto. de Estadística e Informática Estadística General

El rango intercuartil

El rango intercuartil, se define como la diferencia entre el percentil 75 (P 75 = Q3) y el


percentil 25 (P25 = Q1).
RI = P75 - P25
 El RI excluye el 25% más alto y el 25% más bajo, dando un rango dentro del cual
se encuentra el 50% central de los datos.
 Un RI pequeño indica alta homogeneidad o pequeña variabilidad dentro del 50%
central de los datos.

Ejemplo 3
Para el grupo C: P75 = 19 y P25 = 9.5, entonces: RI = 19 – 9.5 = 9.5 puntos.

Esto indica que la amplitud del 50% central de las notas de la primera práctica para el
grupo C fue 9.5.

La variancia y la desviación estándar


1 1 N 2 2
 X   
N
2
Variancia poblacional: 2  j  X j  N  
N j 1 N  j 1 
1 n 1  2
 
2 n
Variancia muestral: S2  
n  1 j 1
Xj X   X j  n X 
n  1  j 1
2


Desviación estándar muestral: S  S2
1 k 1 k 2
Para una tabla de frecuencias: S2  
n  1 i 1
f i ( X i  X ) 2
 ( fi X i2  nX )
n  1 i 1

Se observa que la variancia está dada en las mismas unidades que la variable en
estudio al cuadrado. Por ejemplo si las unidades de las observaciones son Kg. entonces
la variancia se expresa en Kg2.

Ejemplo 4
Halle la variancia y desviación estándar muestral de las notas para cada uno de los
grupos.
10
Grupo Notas x x
i 1
2
i

A 14 14 14 14 14 14 14 14 14 14 14 1960
B 14 13 15 14 12 15 16 13 12 16 14 1980
C 19 8 19 11 16 18 6 13 10 20 14 2192

1  10 2 2 1
Grupo A: S A2    xi  n x  
n  1  i1

1960  10 x142  0  y SA  0
 10  1
1  10 2 2 1
Grupo B: S B2    xi  n x  
n  1  i1
 
1980  10 x142  2.22 y S B  2.22  1.49
 10  1
1  10 2 2 1
Grupo C: SC2    xi  n x  
n  1  i1
 
2192  10 x142  25.78 y SC  25.78  5.08
 10  1

Se observa que a mayor variabilidad entre las observaciones, la variancia es mayor.


Esta comparación se cumple siempre cuando los promedios sean similares.
Se observa que la variabilidad promedio de las notas de la primera práctica del grupo B
es 1.49 puntos.

62
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Coeficiente de variabilidad

El coeficiente de variabilidad es una medida de dispersión relativa (no tiene unidades) y


se define como la razón entre la desviación estándar y la media aritmética de un
conjunto de observaciones.

Coeficiente de variabilidad poblacional: CV   100

s
Coeficiente de variabilidad muestral: cv   100
x

Ejemplo 5
Halle el coeficiente de variabilidad de las notas de la primera práctica para cada grupo.

SA 0
Grupo A: cv A  x100  x100  0
xA 14
S 1.49
Grupo B: cv B  B x100  x100  10.6%
xB 14
S 5.08
Grupo C: cvC  C x100  x100  36.3%
xC 14

Esto indica, que la variabilidad de la nota de la primera práctica del grupo C es 36.3% y
por lo tanto es el más heterogéneo por tener mayor cv en comparación con el grupo A y
B.

Ejemplo 6
Los siguientes datos corresponden al tiempo (en minutos), al cabo del cual se duermen
las ratas después de haber recibido un tipo de tranquilizante (A o B).

Tipo A Tipo B
n 18 ratas 20 ratas
x 9.94 min 15.2 min
s 2.81 min 2.84 min

¿Con qué tranquilizante el tiempo es más homogéneo?

2.81 2.84
cv A   100  28.27 % cv B   18.68 %
9.94 15.2

Se concluye que con el tranquilizante B se obtienen observaciones más homogéneas


que con el tranquilizante A.

63
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 1. Los siguientes datos corresponden a las mediciones de la emisión diaria


(en toneladas) de óxido de azufre de una planta industrial.

15.8 26.4 17.3 11.2 23.9 24.5 13.9 9.4 22.7 18.5
15.2 11.0 7.7 20.0 16.2

Calcule e interprete las medidas de variabilidad (Rango, Rango intercuartil, Varianza,


Desviación estándar y Coeficiente de variación).

Comparación de la variabilidad

Para comparar la variabilidad entre dos o más conjuntos de datos, se debe considerar:

Unidades de medidas Unidades de medidas iguales


diferentes
Medias similares Medias diferentes

cv1 con cv2 S1 con S2 cv1 con cv2

El cuadro indica que cuando se compara la variabilidad de dos conjuntos de datos, si las
variables tienen unidades de medidas diferentes; se debe usar los coeficientes de
variación; mientras si las variables tienen unidades de medida iguales, se debe
observar si las medias son similares para usar la desviación estándar y en caso que las
medias sean diferentes usar el coeficiente de variación.

64
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 2. En el siguiente cuadro se muestra las medidas estadísticas de las ventas


(soles) y tiempo extra (horas) de los vendedores de dos zonas (A y B).

Desviación Coeficiente de
Promedio estándar variabilidad

Zona Ventas Tiempo Ventas Tiempo Ventas Tiempo

A 236.3 3.5 82.6 1.5 35.0 42.9


B 450.5 3.6 98.5 2.8 21.9 77.7

a. Las ventas de la zona A son menos variables que las de la zona B. Justifique.

b. El tiempo extra de la zona B muestra más variabilidad que la zona A. Justifique.

c. Para la zona A, las ventas son más variables que el tiempo extra. Justifique.

Transformación de datos

SY2  b 2 S X2

Sea la variable Y, entonces para Y  a  bX , se cumple: SY  bS X

Ejemplo 7
En una empresa industrial desea mejorar la productividad de los obreros, para tal
efecto se escogió uno de los productos de la empresa para hacer el análisis, y se tomó
el tiempo que demoran 20 trabajadores del primer turno en ensamblar el producto,
obteniéndose los tiempos siguientes (en minutos):

Variable Media StDev Varianza CoefVar Q1 Mediana Q3


C1 3.525 1.723 2.967 48.87 1.975 3.250 5.125

a. El Gerente de Producción, considera que la muestra de obreros es muy pequeña,


por lo tanto dispone se incremente con 5 trabajadores más, los cuales demoran
2.5, 2.8, 4.3, 5.1, 5.5 (en minutos) para ensamblar el producto, encuentre e
interprete la media, la mediana y la moda de los tiempos de los 25 trabajadores
juntos.

Media con 20 trabajadores : 3.525


Media de 5 trabajadores : (2.5+2.8+4.3+5.1+5.5)/5= 4.04
Media con 25 trabajadores : (20*3.525+5*4.04)/25= 3.628
65
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Inspeccionando el cronómetro con que se registró los tiempos se encontró que éste
estaba excediendo la medición en 0.1 minutos. ¿Cuáles serían entonces las reales
medidas halladas en a)?

Media = 3.525-0.1=3.425
Mediana = 3.25-0.1=3.15
S= 1.723
CV = 1.723/3.425*100 = 50.3%

Ejercicio 3. Considere los datos del ejercicio 2. Suponga que la empresa decide hacer
un pago adicional por las horas extras. A los vendedores de la zona A, se les pagará S/
10.0 por cada hora extra más S/. 50 por movilidad. A los de la zona B, se les pagará S/
15.0 por cada hora extra.
Calcule la desviación estándar y coeficiente de variabilidad para estos pagos adicionales

Ejercicio 4. Los sueldos de 100 empleados de una empresa tienen una media de $300
y una desviación estándar de $50. Se proponen dos alternativas de aumento A: $75 a
cada uno B: 15% del sueldo más $20 a cada uno. ¿Cuál alternativa es la más
conveniente?. Justifique su respuesta.

a. Si la empresa dispone sólo de $37000 para pagar el aumento de sueldos

b. Si la empresa quiere tener los aumentos de sueldos más homogéneos

66
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. En el mes de Julio el sueldo promedio de los trabajadores del Sector Educación fue
de $200 dólares. Para el mes de Agosto se considera un aumento del 37% con
respecto al sueldo del mes anterior más un adicional de $35 dólares. Si se obtuvo
una desviación estándar igual a $ 3.15 en el mes de Julio. ¿Se puede afirmar que la
distribución de sueldos en Julio fue más homogénea?

2. En una industria el jornal diario de sus obreros tiene una media de $10 y una
desviación estándar de $2. Si se hace un incremento del 20% en cada jornal y una
bonificación adicional de $3. ¿En qué porcentaje cambio el coeficiente de variación
de los jornales?

3. Los sueldos de 100 empleados de una empresa tienen una media de $300 y una
desviación estándar de $50. Se proponen dos alternativas de aumento i) $75 a cada
uno ii) 15% del sueldo más $20 a cada uno ¿Cuál alternativa es la más
conveniente?
a) Si la empresa dispone solo de $37000 para pagar sueldos.
b) S la empresa quiere homogeneizar los sueldos

4. Si 80 artículos tienen un variancia de 4.2 Kg2 y un P40 = 43.4 Kg y se sabe que el


instrumento de medición utilizado no estaba calibrado y pesó a los artículos con un
25% más de su peso. Halle la verdadera variancia y el verdadero P40.

5. En un estudio sobre garbanzo se consideró la variable altura de planta y en una


muestra de 14 plantas se tiene: 55.7, 57.6, 58.5, 58.7, 58.8, 59.3, 59.4, 59.6,
60.0, 59.8, 60.1, 60.2, 60.3, 63.1. Calcule e interprete la variancia muestral y P 75.
Si a cada observación se le multiplica por 1.8 y a cada resultado se le resta 3 halle
la nueva variancia muestral y el nuevo P75.

6. Se tiene una muestra aleatoria de tamaño 20 con media 5 y variancia igual a


0.36, si a cada observación se le incrementa un 20% de su valor más una cantidad
de 4 unidades:

1. Calcule el coeficiente de variación de los datos transformados.


2. De la pregunta anterior, ¿qué conjunto de datos presenta mayor variabilidad, los
datos transformados o los datos iniciales?

7. El sueldo promedio de los empleados de una empresa para el mes de Julio fue de
S/. 1500 y un coeficiente de variabilidad de 30%. Si la gerencia decide dar un
aumento del 8% más un monto por viáticos de S/. 200 cada mes. Calcular el
coeficiente de variabilidad para el nuevo sueldo.
8. Para evaluar la efectividad de sus empleados, una empresa dedicada a la venta de
teléfonos celulares ha recopilado la siguiente información sobre el número de
teléfonos vendidos en la última semana por sus 64 empleados:

Número de empleados 13 15 16 8 5 4 3
Número de ventas 5 6 7 8 9 10 11
a. Calcule e intérprete las medidas de variabilidad.
b. La empresa le paga a sus empleados 100 soles semanales más una comisión de
40 soles por celular vendido y sobre estos ingresos los empleados deben aportar
el 15% a su AFP. Calcule el promedio y la desviación estándar para el ingreso
neto promedio semanal por empleado.

9. Los sueldos de 150 trabajadores de una empresa tienen un coeficiente de variación


del 5% en el mes de agosto. Para el mes de septiembre hay un aumento a cada
trabajador del 20% de sus sueldos más una bonificación de $60 y el coeficiente de
variación baja a 4%.
67
UNA La Molina - Dpto. de Estadística e Informática Estadística General

a) Calcule la media y la desviación estándar de los sueldos del mes de agosto.


b) ¿Cuánto dinero adicional necesita la empresa para pagar todos los sueldos del
mes de septiembre?
.
10. El banco “Nuevo Continente” cuenta con sucursales en LA Molina y Los Olivos. El
gerente de crédito selecciona al azar algunas solicitudes de préstamo que han sido
aceptadas en cada una de las sucursales y resume de manera independiente la
información correspondiente al monto de préstamo otorgado (en miles de nuevos
soles) en los siguientes diagramas de tallos y hojas:

Tallo y Hojas de La Molina N = 13 Tallo y Hojas de Los Olivos N = 14


Unidad de la Hoja = 0.10 Unidad de la Hoja = 0.10

1 4 3 1 2 6
4 4 678 3 3 01
(4) 5 2244 3 4
5 5 5 5 5 08
4 6 4 5 6
3 6 99 7 7 14
1 7 4 7 8 5
6 9 069
3 10 1
2 11 45
a) Calcule e interprete las medidas de variabilidad para la sucursal de La Molina.
b) ¿Qué conjunto de datos presenta mayor variabilidad?
c) Para la sucursal de los Olivos el interés que cobra el banco corresponde al 5%
del monto otorgado como préstamos más 20 nuevos soles por gastos
administrativos. Mientras que para la sucursal de la Molina, se cobra 4.5% del
monto otorgado. Se puede decir que el interés que cobra la sucursal La Molina es
menos variables que el que cobra los Olivos.

11. En el mes de Marzo el sueldo promedio de los trabajadores del Sector Educación
fue de $180 dólares. Para el mes de Abril se considera un aumento del 25% con
respecto al sueldo del mes anterior más un adicional de $40 dólares. Si el
coeficiente de variación del mes de Marzo fue de 0.15. ¿Se puede afirmar que la
distribución de sueldos en Marzo fue más homogénea?

12. Los sueldos de 150 trabajadores de una empresa tienen un coeficiente de variación
del 5% en el mes de agosto. Para el mes de septiembre hay un aumento a cada
trabajador del 20% de su sueldo más una bonificación de $60 y el coeficiente de
variación baja a 4%.
a) Calcule la media y la desviación estándar de los sueldos del mes de agosto.
b) ¿Cuánto dinero adicional necesita la empresa para pagar todos los sueldos del
mes de septiembre?

68
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. La medida de variabilidad que mide la amplitud del 50% central de los datos, se
denomina ___________________________________________.

2. La medida de variabilidad para medir el grado de homogeneidad del peso y talla de


una muestra de 100 estudiantes es _____________________________
3. ________________ es una medida de variabilidad que es afectada por valores
extremos.

4. Si el cv=30% y el promedio es 2, entonces para Y=5-2X, su cv es igual a


________________________
5. Se sabe que en una muestra de 50 familias de una zona rural, 25 tienen 6 hijos, 15
tienen 5 hijos, 8 tienen 4 hijos y el resto 3 hijos. Entonces el coeficiente de variación
del número de hijos es igual a ___________________________.
6. Se tiene que el sueldo de los 120 trabajadores de una empresa tiene un coeficiente
de variabilidad del 8% en el mes de julio. Para el mes de agosto hay un aumento
para cada trabajador del 25% de su sueldo más una bonificación de $40, lo cual
hace que el coeficiente de variabilidad sea del 4%. La media y la desviación
estándar de los sueldos del mes de agosto son ____________ y ______________.
7. Si las variables X e Y son independientes y para a y b constantes, entonces la
Var(aX + bY) es igual a __________________________
8. En una distribución simétrica la mediana es 4 y el coeficiente de variabilidad es
20%. El valor de la desviación estándar es ______________________.
9. Si se sabe que en una plantación foresta, el 25% de los árboles tienen un diámetro
menor a 0.85 cm y el 25% mayores a 0.92 cm. Entonces, la amplitud del 50%
central de los diámetros es igual a _________________________.
10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F


a. Si a cada valor de una variable se le multiplica por una constante (k),
entonces el coeficiente de variación resulta multiplicado por k.
b. El coeficiente de variabilidad es una medida de dispersión relativa y
siempre es positivo.
c. La desviación estándar es una medida que permite comparar dos
conjuntos de datos que presentan diferentes unidades.
d. La unidad de medida de la variancia siempre está al cuadrado.
e. La desviación estándar está afectada por las unidades de medida.

69
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO V

MEDIDAS DE ASIMETRÍA

Las medidas de asimetría permiten determinar la forma de una distribución para un


conjunto de datos en lo que se refiere a su simetría o asimetría.

Objetivo. Al finalizar este capítulo el lector debe ser capaz de cuantificar e interpretar
la simetría o asimetría de una distribución.

5.1 Formas de una Distribución

 Distribución simétrica. Un conjunto de datos muestra una distribución simétrica,


si su curva guarda simetría con respecto al centro de los datos. Si la distribución es
simétrica entonces   Me .
 Distribución asimétrica positiva. Si un conjunto de datos muestra una
distribución asimétrica positiva o con cola a la derecha, entonces:   Me .
 Distribución asimétrica negativa. Si un conjunto de datos muestra una
distribución asimétrica negativa o con cola a la izquierda, entonces:   Me .

Ejemplo 1
Los siguientes gráficos corresponden a la distribución de los ingresos mensuales (miles
S/.) de muestras al azar de los clientes de tres sucursales (A,B y C) de una caja rural.

Sucursal A Sucursal B Sucursal C

X  me X  me X  me

Distribución simétrica Distribución asimétrica positiva Distribución asimétrica negativa


o hacía la derecha o hacía la izquierda

 Las relaciones entre la media y la mediana descritas anteriormente, se cumplen con


distribuciones unimodales (una sola moda).

5.2 Coeficiente de asimetría de Pearson

Poblacional: As 
3   Me
Muestral: as 

3 X  me 
 s
Propiedades

1. Si as = 0 entonces la distribución es simétrica.


2. Si as < 0 entonces la distribución es asimétrica negativa o a la izquierda.
3. Si as > 0 entonces la distribución es asimétrica positiva o a la derecha.

Un mayor (menor) valor del coeficiente de asimetría de Pearson indica un mayor


(menor) grado de asimetría de la distribución de los datos.

70
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 2
Recordemos los datos de los ingresos mensuales del Banco Comercial que se trabajaron
en la parte de organización de datos. Con esa información se tienen los siguientes
valores: x  5.350 , me  4.700 , s  2.181 .
3  5.350  4.700 
Por lo tanto as   0.8941  0 , entonces la distribución de los ingresos
2.181
mensuales tiene una asimétrica positiva.

Ejercicio 1. Se desea realizar un estudio sobre la utilización del agua en tres zonas
rurales (A, B y C). Con esta finalidad se ha seleccionado al azar 8 casas de la zona A, 6
de la zona B y 10 de la zona C. Luego se registró el número de litros de agua
consumidos por un día, los cuales se presenta en el siguiente cuadro:

Zonas Número de litros de agua consumidos por día


A 150 135 120 110 160 180 155 165
B 135 110 105 125 750 140
C 100 110 115 280 130 140 175 120 130 145

Cálculo de medidas estadísticas con el MINITAB

Estadísticas Descriptivas

Variable N Media Mediana StDev


Zona A 8 146.88 152.50 23.59
Zona B 6 228 130 256
Zona C 10 144.5 130.0 52.0

Variable Minimo Maximo Q1 Q3


Zona A 110.00 180.00 123.75 163.75
Zona B 105 750 109 293
Zona C 100.0 280.0 113.8 152.5

Calcule e interprete el coeficiente de asimetría de Pearson para el número de litros de


agua consumidas para cada zona

71
UNA La Molina - Dpto. de Estadística e Informática Estadística General

5.3 Diagrama de cajas (Box plot)

El diagrama de cajas (Box plot) es una técnica gráfica que nos permite determinar:
1. Los valores extremos (outliers), valores atípicos o datos discordantes.
2. La asimetría de la distribución que corresponde al 50% central de los datos.
3. La variabilidad del 50% central de dos o más conjuntos de datos.

Valor Outlier
El bigote superior
se extiende al valor
más alto que
* pertenece al
intervalo de
seguridad superior
Tercer
Cuartil (Q3)
Mediana

El bigote inferior se
extiende al valor ás
Primer bajo que pertenece
Cuartil (Q1) al intervalo de
seguridad inferior

 La caja contiene información del 50% de los datos ya que la línea inferior de la caja
es el primer cuartil (Q1 = P25), y la línea superior de la caja es el tercer cuartil (Q 3 =
P75).
 La línea que divide a la caja es la mediana y su posición dentro de ella nos brindará
información sobre la asimetría de la distribución del 50% central de datos.
 Los bigotes son las líneas que se extienden de la parte inferior y superior de la caja
hasta la observación más alta o más baja dentro de los intervalos de seguridad.

Interpretación del diagrama de cajas:

1. Respecto a la Simetría o Asimetría. Para evaluar la asimetría en el 50% central


de los datos se observa la posición de Q2 = P50

 Si Q2 está próximo a Q1, entonces la distribución de los datos presentan una


asimetría positiva o hacía la derecha.
 Si Q2 está próximo a Q3, entonces la distribución de los datos presentan una
asimetría negativa o hacía la izquierda.
 Si Q2 está en medio de Q1 y Q3, entonces la distribución de los datos
presentan una simetría.

2. Respecto a la variabilidad. En el punto referido a la variabilidad sólo es aplicable


al caso cuando se comparan dos o más distribuciones a través de la longitud (largo)
de sus respectivas cajas. Presenta mayor variabilidad la distribución que tenga
mayor longitud de caja, sin embargo, se debe advertir que este criterio para
evaluar la variabilidad alcanza únicamente a la distribución del 50% central de
datos.

3. Respecto a datos outliers. Son observaciones fuera de los límites inferior y/o
superior y que se representan con asteriscos (*).

Intervalo de seguridad inferior ISI = Q1 – 1.5 (Q3 - Q1) = Q1 – 1.5 RIC


Intervalo de seguridad superior ISS = Q3 + 1.5 (Q3 - Q1) = Q3 + 1.5 RIC

Si Xi < ISI, entonces Xi es un dato atípico pequeño u outliers pequeño.


Si Xi > ISS, entonces Xi es un dato atípico alto u outliers alto.
72
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 3
Se tienen los pesos de 10 personas del aula A: 50, 52, 53, 54, 63, 64, 75, 76, 85, 120.
Con estos datos se obtiene P25 = 52.75, P50 = me = 63.5, P75 = 78.25, RI = Q3-Q1 =
25.5
Luego se calculan los intervalos de seguridad inferior y superior.
ISI = P25 – 1.5 RI = 52.75 – 1.5 (25.5) = 14.5
ISS= P75 + 1.5 RI = 78.25 + 1.5 (25.5) = 116.5

Un valor es extremo si es menor que 14.5 o mayor que 116.5

120

110

100

90
Peso A

80

70

60

50

Se aprecia que hay un outlier o valor extremo superior (120 Kg.  116.5) que se
representa con un asterisco (*). En el caso inferior no existe ningún valor menor al
límite inferior (14.5).

El límite superior es 116.5. El bigote superior llega hasta el valor adyacente más alto
dentro del límite superior (78.25 a 116.5). En nuestro ejemplo el bigote superior llega
hasta 85.

El límite inferior es 14.5. El bigote inferior llega hasta el valor adyacente más bajo
dentro del límite inferior (14.5 a 52.75). En nuestro ejemplo el bigote inferior llega
hasta 50.

La asimetría del 50% central de los datos es positiva.

Ejemplo 4
Si se tienen los pesos de 10 personas del aula B: 54, 54, 54, 55, 55, 55, 55, 56, 56, 56.
Entonces P25 = 54, P50 = 55, P75 = 56, RI = 2, ISI = 51, ISS = 59.

120

110

100

90

80

70

60

50

Peso A Peso B

Peso A representa la caja del ejemplo anterior y Peso B la caja del ejemplo que se
está presentando. Se observa que en Peso B no hay valores extremos y que una caja
más grande representa a datos más variables (Peso A es más variable que Peso B).
Peso B es simétrica (se verifica que me  x  55 Kg )

73
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 2. Se sabe que un determinado contaminante industrial vertido sobre un


ecosistema fluvial genera en las truchas anticuerpos. Se cree que el número de
anticuerpos por cada unidad de sangre, puede ser distinta entre truchas hembras y
machos, por lo que se ha seleccionado de un criadero de truchas, ubicado cerca de una
industria que vierte el contaminante, una muestra de 70 truchas de las cuales 40 son
hembras y 30 machos. Los datos obtenidos se resumen a continuación, según el grupo
de hembras o machos.

Gráfico de tallo y hojas para: Estadísticas descriptivas para:


Hembras N = 40 Machos
Unidad de hoja: 10
3 2 223 Mean SE Mean StDev Minimo
6 3 568 673.0 45.2 247.8 290.4
12 4 236899
19 5 0112249 Q1 Median Q3 Maximo N
(10) 6 0034456788 476.6 689.2 833.3 1200 30
11 7 33779
6 8 9
5 9 08
3 10 00
1 11
1 12
1 13 4

a. Complete el siguiente diagrama de cajas.

Cálculos:

74
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Realice una comparación acerca de la posición, variabilidad, simetría para el 50%


central y outliers de ambos sexos.

Ejercicio 3. Se ha desarrollado un experimento para evaluar el efecto de alimentos


balanceados en la ganancia de pesos de pollos. Una muestra de 30 recibió el alimento A
y otra muestra de 60 pollos el alimento B. Al cabo de 10 días se registraron la ganancia
de pesos (en gr)

Alimento A
93 98 100 102 107 109 110 110 111 111 113 114 115 116 118
118 119 119 120 120 120 124 125 128 129 129 130 135 138 181

Alimento B
Tallo y Hojas de Alimento B N = 60
Unidad de Hoja = 1,0
2 12 34
11 12 566788999
24 13 0000000011133
(12) 13 566678889999
24 14 001123
18 14 5669
14 15 0122
10 15 788899
4 16 0123

Variable N Media StDev CoefVar Minimo Q1 Mediana Q3 Maximo


A 30 117,40 11,57 9,85 93,00 110,00 118,00 125,75 181,00
B 60 139,60 11,46 8,21 123,00 130,00 138,00 148,25 163,00

a. ¿Cuál de los dos tipos de alimentos es menos variable? (Considerando el 100% de


los datos)

75
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Calcule e interprete el coeficiente de asimetría de Pearson para las ganancias de


peso de los pollos alimentados con A y B.

c. Construya un diagrama de cajas para las ganancias de peso de los pollos


alimentados con A y B. Interprete y compare los diagramas de cajas. (respecto a la
simetría en el 50% central de los datos, la variabilidad en el 50% de los datos y la
presencia de datos outliers).

76
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 3

1. Un ingeniero zootecnista está interesado en analizar algunas variables obtenidas de


su criadero de patos para optimizar su producción en los próximos meses. Por este
motivo, el ingeniero le solicita a usted su colaboración para apoyar en dicho estudio.

Usted para realizar el estudio sugiere tomar muestras aleatorias e independientes de


las razas de patos con las que se cuenta en la granja. Algunas variables a analizar
son las siguientes:

 Raza de pato: Muscovy (M), Pekín (P).


 Peso vivo antes del sacrificio (en Kg.).
 Presencia de enfermedad (Si, No)

Algunos resultados obtenidos son:

Tabla N°1. Peso (en Kg.) de los patos según raza.

Diseño de tallo y hoja: Pekín


Muscovy Unidad de hoja = 0.010

2.12 4.13 2 21 37
2.2 4.19 3 22 0
2.26 4.23 3 23
5 24 99
2.29 4.31 6 25 0
2.92 4.5 7 26 6
14 27 0024559
3.06 4.51
24 28 0133457779
3.38 4.7 (5) 29 04677
3.76 4.74 21 30 0134699
14 31 1238
3.83 5
10 32 38
3.95 5.01 8 33 4
7 34 27
5 35 6
4 36 118
1 37 5

Tabla N°2. Medidas resumen para el peso (en Kg.) de los patos según raza

Raza x i x 2
i Q2
Muscovy 75.09 299.7393 4.04
Pekín 147.8 443.3536 2.92

a. ¿Cuál debe ser el peso mínimo para que un pato de la raza Pekín sea
considerado dentro del 30% de los patos con mayor peso?

77
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. ¿Cuál es la raza que presenta la mayor variabilidad?. Justifique su respuesta.

c. Si se sabe que el peso después del sacrificio en la raza Muscovy disminuye en un


15.5% y en la raza Pekín se resta 0.85 kgs.. Se puede afirmar que el peso
después del sacrificio de la raza Muscovy es más homogéneo que el de la raza
Pekín. Justifique su respuesta.

d. ¿Cuál es la forma de la distribución de los pesos para cada una de las razas?
Justifique su respuesta.

78
UNA La Molina - Dpto. de Estadística e Informática Estadística General

e. Complete el siguiente diagrama de cajas para el peso (en Kg.) según tipo de
raza. Indique sus valores.

Gráfica de caja de Muscovy, Pekín

5.5

5.0

4.5

4.0
Datos

3.5

3.0

2.5

2.0

1.5

Muscovy Pekín

Cálculos:

f. Utilice el gráfico anterior para realizar un análisis comparativo de las 2 razas, de


sus conclusiones acerca de la asimetría, variabilidad y valores atípicos.

79
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. El siguiente gráfico (BoxPlot) muestra la información sobre el nivel de ventas


durante el último mes (en cientos de dólares) del detergente “Blanquito” en 18
tiendas seleccionadas al azar. Las tiendas fueron clasificadas de acuerdo a los
niveles socioeconómicos Medio-Alto y Medio-Bajo a la cual pertenece.

7000

6000

5000

4000

3000

2000

1000

Medio-Alto Medio-Bajo

a) Señale en cuál de los dos estratos socioeconómicos se presenta una mayor


variabilidad.
b) Señale el tipo de asimetría que presentan las tiendas de cada uno de los estratos
socioeconómicos.

2. Una empresa que posee tres fábricas, ha observado el número de piezas diarias
producidas por cada una de ellas durante diez días elegidos al azar, obteniéndose
los siguientes resultados:

10

x
i 1
2
i

Fabrica A 103 106 105 102 108 109 101 110 105 107 111590
Fabrica B 115 112 99 98 107 113 108 114 96 94 112100
Fabrica C 92 97 103 89 106 108 116 87 128 130 113610

a) Calcule e interprete la media y la mediana para el número de piezas diarias


producidas por las fábricas A y C.
b) La empresa recibe un pedido de 2111 piezas que debe ser entregado en un plazo
de 20 días. ¿A cuál de las tres fábricas es más aconsejable encargarle el pedido?
c) ¿Qué se puede afirmar acerca de la simetría de las piezas diarias producidas por
la fábrica B?
d) Elabore e interprete el diagrama de cajas para el número de piezas diarias
producidas por las tres fábricas.

80
UNA La Molina - Dpto. de Estadística e Informática Estadística General

3. En la granja de la UNALM, se realizó un estudio con la finalidad de comparar el peso


en Kg. (a los dos meses de nacido), de dos razas de cuyes: Inti y Andina. Para
llevarlo a cabo, se seleccionaron al azar muestras de cada una de las razas,
obteniéndose los siguientes resultados:

ANDINA INTI
Tallo y Hojas de Andina 0.68 0.94
Unidad de Hoja = 0.010
0.89 0.95
1 8 3 0.89 0.99
3 8 58
7 9 1234 0.89 0.99
(5) 9 56679
3 10 1 0.89 1.04
2 10 5 0.89 1.09
1 11
1 11 5 0.89 1.11
0.90 1.11

a) Halle e interprete la media y la moda para la raza Andina


b) Construya el Diagrama de Cajas para la raza Andina, calcule sus componentes e
indíquelo en el gráfico.
Diagrama de Cajas del Peso
1.2

1.1
Peso (en kg.)

1.0

0.9

0.8

0.7

Andina Inti

c) Utilice el gráfico anterior para comparar la variabilidad y asimetría de las dos


razas en estudio.

4. Para determinar la efectividad de un programa de seguridad industrial se


recogieron los siguientes datos (horas hombres - perdidas por mes) empleando dos
programas distintos (A y B) durante 12 meses tomados al azar.

Tallo y Hojas de Prog A N = 12


Unidad de Hoja = 1.0

2 0 68
(6) 1 022223
4 1 569
1 2
1 2 6

Variable N Media StDev Minimo Q1 Mediana Q3 Maximo


Prog B 12 7.750 2.491 2.000 6.000 9.000 9.750 10.000

a) ¿Cuál es la pérdida mínima de horas–hombres que debe tener el programa A


para estar incluido en el 15% de lo que más horas-hombre pierden?
b) Encontrar el rango intercuartílico del programa A.

81
UNA La Molina - Dpto. de Estadística e Informática Estadística General

5. Se realizó un estudio en la provincia de Tambo Grande (Piura), luego de la


aplicación de un nuevo abono en el cultivo de dos variedades de mango: Kent y
Haden. Los rendimientos en la producción obtenidos luego de la cosecha en Kg/Ha
fueron los siguientes:

Variedades
Variedad Kent Variedad Haden
N° de N° de
Rend. Rend.
Ha Ha Tallo y Hojas de Haden N = 22
1 9.0 12 13.1 Unidad de Hoja = 0.10
2 11.9 13 13.2
8 10 22388999
3 12.6 14 13.5
(6) 11 266888
4 12.6 15 13.5 8 12 2233
5 12.6 16 13.7 4 13 344
6 12.8 17 13.8 1 14
7 12.8 18 13.8 1 15
8 12.8 19 14.1 1 16 5
9 12.9 20 14.1
10 12.9 21 14.3
11 13.1 22 15.1

Variable N Mediana StDev Minimo Maximo


Kent 22 13.100 1.164 9.00 15.10

Variable N Media StDev Minimo Maximo


Haden 22 11.836 1.422 10.20 16.50

Elabore un diagrama de cajas múltiple y presente sus conclusiones.

6. Lidercom es una institución dedicada a otorgar certificaciones de calidad ISO 9001


a empresas de bienes y servicios. La Firme está en proceso de evaluación por esta
institución y una de las tareas es medir la satisfacción del personal de la empresa
mediante una prueba con escala de 0 a 100 puntos.

De una muestra de 40 trabajadores que laboran en la sede principal se


obtuvieron las siguientes puntuaciones:

74 89 82 83 67 81 68 85 81 72
71 74 50 64 72 44 66 84 69 81
69 66 93 53 98 70 95 82 81 80
88 80 85 85 72 81 90 89 80 97

a) Halle el rango intercuartíl (RI) de la distribución de la puntuación de los


trabajadores de la sede principal.

b) Usando el RI hallado en b, calcule el límite inferior y superior e indique si un


valor es atípico (outlier) o no.

82
UNA La Molina - Dpto. de Estadística e Informática Estadística General

7. Un ingeniero zootecnista está interesado en analizar algunas variables obtenidas de


su criadero de patos para optimizar su producción en los próximos meses. Por este
motivo, el ingeniero le solicita a usted su colaboración para apoyar en dicho
estudio.

Usted para realizar el estudio sugiere tomar muestras aleatorias e independientes de


las razas de patos con las que se cuenta en la granja. Algunas variables a analizar
son las siguientes:

 Raza de pato: Muscovy (M), Pekín (P).


 Peso vivo antes del sacrificio (en Kg.).
 Presencia de enfermedad (Si, No)

Algunos resultados obtenidos son:

Tabla N°1. Peso (en Kg.) de los patos según raza.

Diseño de tallo y hoja: Pekín


Muscovy Unidad de hoja = 0.010

2.12 4.13 2 21 37
2.2 4.19 3 22 0
2.26 4.23 3 23
5 24 99
2.29 4.31 6 25 0
2.92 4.5 7 26 6
14 27 0024559
3.06 4.51
24 28 0133457779
3.38 4.7 (5) 29 04677
3.76 4.74 21 30 0134699
14 31 1238
3.83 5
10 32 38
3.95 5.01 8 33 4
7 34 27
5 35 6
4 36 118
1 37 5

Tabla N°2. Medidas resumen para el peso (en Kg.) de los patos según raza

Raza x i x 2
i Q2
Muscovy 75.09 299.7393 4.04
Pekín 147.8 443.3536 2.92

g. ¿Cuál debe ser el peso mínimo para que un pato de la raza Pekín sea
considerado dentro del 30% de los patos con mayor peso?

h. ¿Cuál es la raza que presenta la mayor variabilidad?. Justifique su respuesta.

i. Si se sabe que el peso después del sacrificio en la raza Muscovy disminuye en un


15.5% y en la raza Pekín se resta 0.85 kgs.. Se puede afirmar que el peso
después del sacrificio de la raza Muscovy es más homogéneo que el de la raza
Pekín. Justifique su respuesta.

j. ¿Cuál es la forma de la distribución de los pesos para cada una de las razas?
Justifique su respuesta.

83
UNA La Molina - Dpto. de Estadística e Informática Estadística General

k. Complete el siguiente diagrama de cajas para el peso (en Kg.) según tipo de
raza. Indique sus valores.

Gráfica de caja de Muscovy, Pekín

5.5

5.0

4.5

4.0
Datos

3.5

3.0

2.5

2.0

1.5

Muscovy Pekín

l. Utilice el gráfico anterior para realizar un análisis comparativo de las 2 razas, de


sus conclusiones acerca de la asimetría, variabilidad y valores atípicos.

84
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Si el coeficiente de asimetría de Pearson es 0.00001, se dice que los datos


presentan una distribución _______________________________.
2. Si en un conjunto de datos la mediana es mayor que la media, entonces el
coeficiente de asimetría de Pearson es ________________ y el conjunto de datos
tiene una asimetría __________________________.
3. La diferencia de RI y el coeficiente de asimetría de Pearson, es que el RI mide la
asimetría considerando __________________________ mientras que el As
considera el _____________________ de los datos.
4. Si los cuartiles de los pesos (en kgrs.) de una muestra de 50 pollos son 1.9, 2.2 y
3.4 respectivamente, entonces se puede afirmar que la distribución del 50% central
de los pesos tiene ____________________________________.
5. En un diagrama de cajas, para afirmar que la distribución del 50% central de los
datos tiene una distribución asimétrica negativa, entonces se debe de cumplir que
______________________________.
6. Si en un diagrama de cajas no existen datos atípicos, entonces el bigote inferior y
superior son ____________________________________ respectivamente.

7. Si en un conjunto de datos, la mediana es 34.5% mayor que la media y el


coeficiente de variación es 45%, entonces el coeficiente de asimetría de Pearson es
igual a _____________________________
8. Para mejorar los tiempos de atención en un Centro Comercial, sea determinado que
los percentiles 25 y 75 de los tiempos de atención en el área de ropa femenina fue
de 14.5 y 18.5 minutos y en área de ropa masculina fue de 6.5 y 12.5 minutos,
entonces se puede decir que hay mayor variabilidad en el tiempo de atención en el
área de ropa ____________________ porque _________________________.
9. En una distribución simétrica, la mediana es igual a 6 y la desviación estándar es
1.8, entonces el coeficiente de variación es igual a ________________________.
10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F


a. Los límites de seguridad son dibujados en el diagrama de cajas
b. Si en un diagrama de cajas, Q2 está próximo a Q3, entonces la
distribución de los datos presenta una asimetría negativa.
c. Es similar usar el diagrama de cajas y el coeficiente de Pearson para
medir la asimetría en un conjunto de datos.
d. Cuando un conjunto de datos presenta una asimetría positiva, indica
que los datos están concentrados en la parte izquierda.
e. A partir de un diagrama de tallos y hojas se puede elaborar su
diagrama de cajas.

85
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO VI

PROBABILIDAD

La probabilidad se refiere al estudio de la aleatoriedad y la incertidumbre. En el mundo


cotidiano las personas continuamente van tomando decisiones desde las más simples
hasta las más complejas, generalmente en condiciones de incertidumbre. La teoría de
probabilidad nos proporciona métodos y técnicas adecuadas para cuantificar la
incertidumbre por lo que es una herramienta importante en la toma de decisiones.

Es común escuchar o leer expresiones como:

a. Es probable que el índice inflacionario se mantenga durante los próximos dos


meses.
b. Hay un 50% de posibilidades de que el alcalde del distrito “X” busque
reelegirse.
c. Probablemente el próximo ciclo se ofrecerá por lo menos 7 grupos de ese curso.
d. Se espera que por lo menos se vendan 15000 boletos para el partido de fútbol.

Objetivo. Conocer los conceptos básicos de las probabilidades; las reglas o axiomas
que la sustentan, así como, sus aplicaciones como medida de cuantificación de la
incertidumbre.

6.1 Revisión de técnicas de conteo

La regla del producto para n-uplas

Supóngase que un conjunto está formado por grupos ordenados de n elementos (n-
upla) y que hay n1 posibles opciones para el primer elemento; por cada opción del
primer elemento hay n2 posibles opciones del segundo elemento;...; por cada posible
opción de los primeros n – 1 elementos hay nk opciones del elemento n.

Entonces hay: n1 x n2 x ... x nk posibles n – uplas.

Ejemplo 1
El propietario de una casa desea efectuar algunas remodelaciones y requiere los
servicios de un distribuidor de utensilios de cocina, de un contratista plomero y de un
contratista electricista. Si, en la zona, hay 8 distribuidores de utensilios de cocina, 10
contratistas plomeros y 5 contratistas electricistas. ¿De cuántas formas se pueden
seleccionar estos tres servicios?

Sea el evento A = {seleccionar los tres servicios}


n(A) = n1 n2 n3 = (8)(10)(5) = 400 3-uplas de la forma (Ui, Pj, Ek), así que hay 400
formas de seleccionar primero un distribuidor de utensilios de cocina, luego un plomero
y, finalmente un electricista.

Ejercicio 1. Un menú consta de tres platos; una entrada, un segundo y un postre. Si


en la lista figuran 2 clases de entrada, 3 clases de segundo y 2 tipos de postre. ¿De
cuántas formas se puede seleccionar los tres platos del menú?

86
UNA La Molina - Dpto. de Estadística e Informática Estadística General

La regla de la adición
Si un experimento 1 ocurre de n1 formas, 2 de n2, ….., k de nk formas; entonces el
experimento  que consiste en realizar 1 ó 2 ó ….. k (los experimentos no pueden
realizarse juntos) ocurre de n1 + n2 + … + nk formas.

Ejercicio 2. Un producto se vende en 3 mercados. En el primer mercado se tienen


disponibles 5 tiendas, en el segundo 4 y en el tercer mercado, 6 tiendas. ¿De cuántas
maneras puede venderse el producto?

Permutaciones

Cualquier secuencia ordenada de n objetos tomados de un conjunto de N objetos


distintos se llama permutación de tamaño n de los objetos. El número de
permutaciones de tamaño n que puede construirse con los N objetos (donde sí
importa el orden) se obtiene por la regla del producto de la siguiente manera:

PnN  N N  1N  2N  n  2N  n  1


N!
Utilizando factoriales se obtiene: PnN 
N  n  !
Ejemplo 2
En un campeonato de fútbol participan 12 equipos ¿De cuántas maneras se pueden
ocupar los tres primeros puestos?

Sea el evento A = {Número de maneras que puede ocupar los 3 primeros puestos}
Total de equipos : N = 12
Seleccionar 3 equipos: n= 3

N (A) = P312  12  11 10  1320

Ejercicio 3. Un club social está formado por 10 personas. ¿De cuántas maneras se
puede formar una comisión integrada por un presidente, un secretario y un vocal?

Casos especiales:

a) Permutaciones de N en N PNN  N !  N ( N 1)( N  2)...1

Ejemplo 3
Se tiene un grupo de 5 caballos para alquiler. Si llegan 5 personas para alquilar un
caballo cada una de ellas ¿De cuántas maneras se puede hacer el alquiler?

P55  5!  5(5  1)(5  2)...1  120 maneras

87
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b) Permutaciones con repetición. El número de permutaciones de N elementos, de


los cuales son iguales entre si N1, N2, N3,..., Nk y donde N = N1+ N2 + N3 +...+ Nk,
N!
está dado por: PNN1, N2, ... Nk 
N1 ! N 2 !...N k !

Ejemplo 4
En la casa comercial “El Palco” hay 4 sinfonías N° 9 de Beethoven, 5 Sinfonías N° 100
de Haydn y 6 Sinfonías N° 36 de Mozart. Suponga que se seleccionan con restitución y
considerando el orden de extracción 8 de estas obras maestras.

a. ¿De cuántas maneras serán seleccionadas 5 sinfonías de Beethoven y 3 de Haydn?

8!
n  A  45  53  P5,3
8
 45  53   7168000
5! 3!
b. ¿De cuántas maneras serán seleccionadas 2 sinfonías de Beethoven, 2 de Haydn y 4
de Mozart?
8!
n  A  42  52  64  P2,2,4
8
 42  52  64   217728000
2! 2! 4!

Combinaciones

Dado un conjunto de N objetos distintos, cualquier subconjunto no ordenado de tamaño


n de los objetos se llama combinación y se denota de la siguiente manera:

N N!
  
 n  n ! N  n  !

Cuando haya N objetos distintos, cualquier permutación de tamaño n se obtiene al


ordenar los n objetos no ordenados de una combinación en una de n! formas (donde
no importa el orden), así:

N  N  PnN N!
PnN    n!     
n   n  n! n ! N  n !

Ejemplo 5
Al poco tiempo de ser puestos en servicio, algunos autobuses fabricados por cierta
compañía presentan grietas en la parte inferior del bastidor principal. Suponga que una
ciudad tiene 18 de estos autobuses, y que han aparecido grietas en 5 de ellos.

a. ¿De cuántas formas se puede seleccionar sin restitución y sin considerar el orden
una muestra de 7 autobuses de los 18 para una inspección completa?
18  18 !
Sea el espacio muestral  entonces n       31824
 7  7 ! 11 !

b. ¿En cuántas formas puede una muestra de 7 autobuses contener exactamente 3


con grietas visibles si la selección es hecha sin restitución y sin considerar el orden
de extracción?
Sea el evento A = {una muestra de 7 autobuses contiene exactamente 3 con
grietas}

 5  13 
n A        7150
 3  4 

88
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 4. Un club de Karate tiene 10 deportistas de los cuales 4 son cinturones


negros

a. ¿De cuántas maneras puede escoger sin restitución y sin considerar el orden de
extracción a cinco karatecas para participar en un torneo?

b. ¿De cuántas maneras puede escoger sin restitución y sin considerar el orden de
extracción a cinco karatecas de tal manera que hayan 2 cinturones negros?

6.2 Conceptos básicos de probabilidad

Experimento aleatorio (E)

Un experimento aleatorio es todo proceso que consiste en la ejecución de un acto (o


prueba) una o más veces (en las mismas condiciones) y cuyo resultado en cada prueba
depende del azar (no se pueden predecir con certeza) pero que sin embargo, se pueden
describir sus posibles resultados.

Ejemplo 6
Suponga los siguientes experimentos aleatorios:
E1 : Observar el número de la cara superior cuando se lanza un dado
E2 : Registrar el sexo del recién nacido
E3 : Observar el número de artículos defectuosos de un lote de 8.
E4 : Anotar el número de clientes que llegan a un supermercado en una semana
E5 : Observar el tiempo de duración de un foco de luz (horas)

Espacio muestral ()


El espacio muestral es el conjunto de todos los posibles resultados (llamados puntos
muestrales) de un experimento aleatorio. Se considera a  es el conjunto universal.
Pueden ser Discreto (Finito o Infinito numerables) o Continuo (Infinito No numerables).
La cardinalidad de  (número de elementos de un conjunto) se denota n().

Ejemplo 7
Los espacios muestrales asociados a los anteriores experimentos aleatorios son:

Cardinalidad Espacio muestral


E1: 1 = {1,2,3,4,5,6} n(1)=6 Finito
E2: 2 = {Hombre, Mujer} n(2)=2 Finito
E3: 3 = {0,1,2,3,4,5,6,7,8} n(3)=9 Finito
E4: 4 = {0,1,2,. . . .} n(4)= ∞ Infinito numerable
E5: 5 = {T/ 0 ≤ t < ∞} n(5)= ∞ Infinito no numerable

89
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 8
Si se observan los sexos de tres niños recién nacidos, el espacio muestral asociado
será:

 = {MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF}, siendo: n(Ω)=8

Ejemplo 9
Considere dos fábricas tales que en cada una hay 6 máquinas que fabrican un producto.
Sea el experimento aleatorio que consiste en determinar el número de máquinas que
están en uso en un día particular. Un resultado experimental indica cuántas máquinas
están en uso en la primera fábrica y cuantas están en uso en la segunda (asuma que
los resultados son igualmente posibles). El espacio muestral  será igual a:

Segunda fábrica
0 1 2 3 4 5 6
0 (0, 0) (0, 1) (0, 2) (0, 3) (0, 4) (0, 5) (0, 6)
1 (1, 0) (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)
Primera 2 (2, 0) (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)
fábrica 3 (3, 0) (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
4 (4, 0) (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)
5 (5, 0) (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6)
6 (6, 0) (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)

Eventos
Un evento es cualquier subconjunto de un espacio muestral. Se dice que un evento es
simple si está formado exactamente por un resultado y compuesto si consta de más de
un resultado. La cardinalidad de un evento se denota por: n(A)

Ejemplo 10
Si se observan los sexos de tres niños recién nacidos, el espacio muestral asociado
será:

 = {MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF} n() = 8

Hay 8 eventos simples.

 Posibles eventos simples: A={MMF} y B = {FMF}.

 Posibles eventos compuestos:

C = {MFF, FMF, FFM} = {exactamente un bebe es de sexo masculino}


D = {MMM, FFF} = {los tres bebes son del mismo sexo}

Ejemplo 11
Con relación al ejemplo 9, hay 49 eventos simples. Ejemplos de eventos compuestos
son:

E = {(0, 0), (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)} = {el número de máquinas en
uso es el mismo para ambas fábricas}

F = {(0, 3), (3, 0), (1, 2), (2, 1)} = {el número total de máquinas en uso es tres}

G = {(0, 0), (0, 1), (1, 0), (1, 1)} = {a lo sumo una máquina está en uso en cada
fábrica}

90
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Eventos mutuamente excluyentes

Los eventos A y B son mutuamente excluyentes (o disjuntos) si no tienen resultados en


común. O sea A  B   . Generalizando: Los eventos A1, A2,..., Ak son mutuamente
excluyentes si: Ai  Aj    i  j  1, 2,  , k

Ejemplo 12
En el Ejemplo 11 los eventos E y F son mutuamente excluyentes en cambio los eventos
E y G no son mutuamente excluyentes.

Eventos colectivamente exhaustivos


k
Los eventos A1, A2,..., Ak son colectivamente exhaustivos si A j  A1  A2   Ak  
j 1

Ejemplo 13
En el Ejemplo 10 los eventos C y D no son colectivamente exhaustivos.

Evento complementario

Para un evento A definido sobre un espacio muestral , el evento complemento de A,


denotado por Ac está compuesto por todos los elementos que no pertenecen al evento
de A. Es decir, todo lo que le falta al evento A para ser el espacio muestral . Se
cumple: Ac  A   y Ac  A  
Ejemplo 14
En el ejemplo 5, para el evento C = {MFF, FMF, FFM} su complemento es Cc = {MMM,
MMF, MFM, FMM, FFF}

Ejercicio 5. Sea el experimento aleatorio observar el número de la cara superior


cuando se lanza un dado. El espacio muestral:  = {1,2,3,4,5,6}

Sean los siguientes eventos definidos:


El número observado es impar: A1 = {1,3,5}
El número observado es par: A2 = {2,4,6}
El número observado mayor a 4: A3 = {5,6}

a. Defina eventos mutuamente excluyentes y no mutuamente excluyentes

b. Defina eventos colectivamente exhaustivos y no colectivamente exhaustivos

c. Defina eventos complementarios

91
UNA La Molina - Dpto. de Estadística e Informática Estadística General

6.3 Definiciones de probabilidad de un evento

Definición clásica de probabilidad (a priori)

Si el experimento aleatorio con espacio muestra ,


tiene n  resultados posibles y
si n A de tales resultados corresponden a un evento A, entonces, siempre que los
eventos simples de  sean mutuamente excluyentes e igualmente posibles, la
probabilidad de que ocurra A es:

n A Número de casos favorables


P A  
n Número de casos posibles

Se dice que es a priori por que antes de realizarse el experimento se puede determinar
cuál es la probabilidad de que ocurra A.

Ejemplo 15
Se tienen 4 cuyes de tipo I, 6 de tipo II y 7 de tipo III. Cinco cuyes son seleccionados al
azar.

Tipo I: 4 cuyes
Tipo II: 6 cuyes
Tipo III: 7 cuyes

1. ¿Cuál es la probabilidad de que 2 de los cuyes seleccionados sean de tipo I y los


otros 3 de otro tipo si la selección es sin restitución y sin considerar el orden de
extracción?

El experimento aleatorio consiste en seleccionar, sin restitución y sin considerar el


orden de extracción, 5 cuyes de un total de 17. El espacio muestral asociado a este
 N  17 
experimento tendrá n        6188 puntos muestrales.
n   5 
Sea el evento R = {obtener 2 de tipo I y 3 de otro tipo}
 4  13  nR  1716
nR         1716 entonces: P R     0.2773
 2  3  n 6188

2. Calcule la probabilidad de seleccionar 2 cuyes de tipo I, 3 de tipo II y 4 de tipo III si


la selección es sin restitución y sin considerar el orden de extracción.

Sea el evento R = {obtener 2 de tipo I, 3 de tipo II y 4 de tipo III}


 4  6  7 
n  R   2   
3 4
P  R     
n  17 
 
 9

92
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 6. Una urna contiene 8 bolas blancas y 6 bolas negras. Si se extraen al azar y
sin reemplazo 5 bolas de la urna. ¿Cuál es la probabilidad de que dos bolas sea de color
blanco?

Ejercicio 7. Si se considera igualmente probable el nacimiento de un niño o una niña,


en una familia que tiene tres hijos, ¿Cuál es la probabilidad de que

a. existan dos mujeres y un hombre?

b. existan por lo menos dos mujeres?

c. existan al menos un hombre?

Ejercicio 8. Se tiene un grupo con 8 ingenieros, 5 economistas y 4 matemáticos ¿Cuál


es la probabilidad de que al seleccionar sin restitución 7 personas, existan 3 ingenieros,
2 economistas y 2 matemáticos?

93
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Definición frecuencial de probabilidades (a posteriori)

Si un experimento aleatorio se repite n veces, bajo las mismas condiciones, y n A


resultados corresponden al evento A, la probabilidad estimada de A está dada por la
frecuencia relativa del evento; es decir, P A estimada  frA 
nA
. Teóricamente la
n
probabilidad de A es: P A  lim frA  lim
nA
.
n  n  n

Se dice que es a posteriori por que la probabilidad estimada se determina después de


realizarse el experimento.

Ejemplo 16
La siguiente tabla de frecuencias corresponde a las temperaturas promedio de 24 horas
(C) registrados en cierto observatorio, en el mes de enero de cierto año:

Temperatura 20.2-20.9 20.9-21.6 21.6-22.3 22.3-23.0 23.0-23.7 23.7-24.4


Número días 1 3 12 13 1 1

La probabilidad estimada que en un día del mes de enero, la temperatura promedio sea
f 2  f3  f 4 3  12  13 28
por lo menos 20.9 C pero menor que 23.0 C es P A    .
n 31 31
Note que esta probabilidad se obtiene después de realizarse el experimento.

Definición axiomática

Sea  el espacio muestral asociado a un experimento aleatorio. La probabilidad de


cualquier evento A de , es el número real P(A) que satisface los siguientes axiomas:

1. 0  P A  1 , para todo evento A.


2. P  1
3. Si los eventos A1, A2, ..., Ak son mutuamente excluyentes o sea si:
Ai  Aj    i  j  1, 2,  , k , entonces
 k  k
P  Aj    PAj   P( A1 )  P( A2 )  ...  P( Ak )
 j 1  j 1

Propiedades de probabilidad

1. Para cualquier evento A, P(Ac) = 1- P(A) ,

2. La probabilidad del evento imposible es cero. P   0

3. Para dos eventos A y B cualesquiera PAc  B  PB  P A  B


4. Para dos eventos A y B cualesquiera P A  B   P A  PB   P A  B 

94
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Usando el Diagrama de Venn se tiene:

A B

A  Bc A  B Ac  B

Ac  B c
Propiedades:
 P A  B  P A  PB  P A  B
  
P A  Bc  P A  P A  B
 PA  B  PB  P A  B
c

 PA  B   1  P A  B
c c

 PA  B   1  P A  B
c c

Ejemplo 17
Los registros de una planta industrial indican que el 12% de todos los obreros
lesionados ingresan a un hospital para recibir tratamiento, el 16% regresa al trabajo al
día siguiente y el 2% ingresan a un hospital pero vuelven al trabajo al día siguiente. Si
un obrero se lesiona:

a. Halle la probabilidad de que ingrese en un hospital para recibir tratamiento o que


regresará al día siguiente

Sean los eventos: H = {un obrero lesionado ingresa a un hospital para


tratarse}
T = {un obrero lesionado regresa al trabajo al día
siguiente}

Datos: P(H) = 0.12, P(T) = 0.16, P(HT) = 0.02

Se pide P(HT) y por la propiedad 4:

P(HT) = P(H) + P(T) - P(HT) = 0.12 + 0.16 – 0.02 = 0.26

En un diagrama de Venn también se apreciaría lo anterior.

b. Calcule la probabilidad de que ingrese a un hospital pero no regrese al trabajo al día


siguiente.

Se pide P(HTc) y por la propiedad 3:

P(HTc) = P(H) - P(HT) = 0.12 – 0.02 = 0.1

c. Determine la probabilidad de que no ingrese a un hospital ni regrese al trabajo al


día siguiente.

Se pide P(HcTc) entonces por Morgan y por la propiedad 1:

P(HcTc) = P(HT)c = 1 - P(HT) = 1 – 0.26 = 0.74


95
UNA La Molina - Dpto. de Estadística e Informática Estadística General

d. ¿Cuál es la probabilidad de que ingrese a un hospital o no regrese al trabajo al día


siguiente?

Por las propiedades 3, 2 y 4:

P(HTc) = P(H) + P(Tc) - P(HTc) = P(H) + (1 – P(T)) – ( P(H) – P(HT) ) =


= 1 - P(T) + P(HT) = 1 - 0.16 + 0.02 = 0.86

Ejemplo 18
Se ha realizado una encuesta para determinar la adicción de alguna droga en diferentes
profesionales. La encuesta se aplicó a 900 profesionales a los que se les preguntó si
consumen alguna droga, los resultados se muestran en la siguiente tabla:

Profesional Consume alguna droga Total


Si (S) No (Sc)
Abogado (A) 40 210 250
Contador (C) 60 190 250
Ingeniero (I) 50 200 250
Médico (M) 20 130 150
Total 170 730 900

Si se selecciona al azar a un profesional, halle la probabilidad que el profesional


seleccionado:

a. Sea un contador o un abogado


250 250
P A  C   P( A)  P(C )  P( A  C )    0  0.5556
900 900
b. Sea médico y si consuma droga
20
PM  S    0.0222
900
c. No sea ingeniero y si consuma droga
170 50 40  60  20
 
P I c  S  PS   PI  S   
900 900

900
 0.1333
d. No consuma droga o sea abogado
730 250 210
    
P S c  A  P S c  P( A)  P S c  A    
900 900 900
 0.8556

Ejemplo 19
Se encuestó a 500 alumnos universitarios sobre cultura musical. 474 no identifican el
Concierto para piano y Orquesta de Grieg, 471 no identifican la Sinfonía N° 7 de
Beethoven y 450 no identifican ninguna de estas obras.

a. Calcule la probabilidad de que un estudiante universitario identifique las dos obras


maestras en mención.

Sean los eventos: A = {Un estudiante no identifica la obra de Grieg}


B = { Un estudiante no identifica la obra de Beethoven}

Datos: P(A) = 474/500, P(B) = 471/500, P(AB) = 450/500

P(AB) = P(A) + P(B) - P(AB) = 495/500


495
P  A  B    P  Ac  B c   1  P  A  B   1   0.01
c
  500

96
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. ¿Cuál es la probabilidad que un estudiante identifique la obra de Beethoven pero no


la de Grieg?

474 450 24
P  A  B c   P  A  P  A  B      0.048
500 500 500

Ejercicio 9. Para un estudio sobre cultura general se encuestó a 500 estudiantes


encontrándose que: 20 habían leído “Ficciones” de Borges; 24 habían leído “El libro
de Arena” de Borges y 464 no habían leído estas dos obras geniales. Si se selecciona
un estudiante al azar:

a. ¿Cuál es la probabilidad que haya leído ambos libros?

b. ¿Cuál es la probabilidad que haya leído “Ficciones” pero no “El Libro de Arena”

Ejercicio 10. En una empresa textil se encuentran 60 hombres mayores de 28 años,


65 hombres menores de 28 años, 45 mujeres mayores de 28 años y 30 mujeres
menores de 28 años. Si se elige al azar una persona:

a. ¿Cuál es la probabilidad de que sea hombre?

b. ¿Cuál es la probabilidad de que sea menor de 28 años o sea hombre?

97
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. ¿Cuál es la probabilidad de que no sea mayor de 28 años y sea mujer?

Ejercicio 11. La unidad de rentas de un distrito de Lima, afirma que el 60% de los
contribuyentes han pagado el predial, el 20% arbitrios y el 8% ambos impuestos. Si se
selecciona un contribuyente al azar:

a. ¿Cuál es la probabilidad que haya pagado el impuesto predial o el de arbitrios?

b. ¿Cuál es la probabilidad que haya pagado el impuesto predial y el de arbitrios?

c. ¿Cuál es la probabilidad que no haya pagado el impuesto predial y ni el de


arbitrios?

d. ¿Cuál es la probabilidad que haya pagado el impuesto predial y no el de arbitrios?

e. ¿Cuál es la probabilidad que no haya pagado el impuesto predial o ni el de


arbitrios?

98
UNA La Molina - Dpto. de Estadística e Informática Estadística General

6.4 Probabilidad condicional

Para dos eventos A y B de un espacio muestral, con P(B)  0, la probabilidad condicional


de ocurrencia del evento A dado que el evento B ha ocurrido, está definida por:

P A  B 
P A B  
P B 

Ejemplo 20
¿Qué es más probable? Que una persona cualquiera tenga cáncer pulmonar o que una
persona que fuma tenga cáncer pulmonar. Según los especialistas la probabilidad de
que tenga cáncer pulmonar una persona que fuma es mayor.

Tenemos los eventos: A = {una persona tiene cáncer pulmonar}


B = {una persona fuma}

De acuerdo a los especialistas P  A B   P  A

Ejemplo 21
La probabilidad que la construcción de un edificio termine a tiempo es 17/20, la
probabilidad que no haya huelga es 3/4 y la probabilidad que la construcción se
termine a tiempo dado que no hubo huelga es 14/15; la probabilidad que haya huelga y
no se termine la construcción a tiempo es 1/10. ¿Cuál es la probabilidad que

a) la construcción se termine a tiempo y no haya huelga?


b) no haya huelga dado que la construcción se terminó a tiempo?
c) la construcción no se termine a tiempo si hubo huelga?
d) la construcción no se termine a tiempo si no hubo huelga?

Solución:
Definimos los eventos:
A = La construcción se termina a tiempo.
B = No haya huelga.

Tenemos:
17 3 14 1
P( A)  P( B)  P( A / B)  P( Ac  B c ) 
20 4 15 10
14 3
a) P( A  B)  P( A / B) * P( B)  *  0.7
15 4
7
P( A  B)
b) P( B / A)   10  0.8235
P( A) 17
20
1
c P( A  B )
c c
10  4  0.4
c) P( A c )  
B P( B )
c
3 10
1
4
d)
c P( Ac  B) P( B)  P( A  B) P( A  B) 14
P( A )  1  1  P( A / B)  1   0.0667
B P( B) P( B) P( B) 15

99
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 22
En una universidad el 70% de los estudiantes, son de Ciencias y el 30% de Letras; de
los estudiantes de Ciencias, el 60% son varones y los de Letras son varones el 40%. Si
se elige aleatoriamente un estudiante.

Varones Mujeres Total


Ciencias 42% 28% 70%
Letras 12% 18% 30%
Total 54% 46% 100%

A = El estudiante elegido es de Ciencias.


B = El estudiante elegido es varón.

Calcular la probabilidad que:

a) Sea un estudiante varón. P (B) = 0.54


b) Sea un estudiante varón, si es de Ciencias.
P( A  B) 0.42
P( B / A)    0.6
P( A) 0.70
c) Sea un estudiante de Ciencias, si es varón.

P( A  B) 0.42
P( A / B)    0.778
P( B) 0.54

Propiedades de probabilidad condicional

1. 0  P A / B   1, para todo evento A y B


2. P / B   1
3. Si los eventos A1, A2, ... , Ak son mutuamente excluyentes o sea si:
 k  k
Ai  Aj    i  j  1, 2,  , k , entonces P  Aj B    PAj / B 

 j 1  j 1
4. P(A/B) = 1- P(Ac /B)
5. P / B   0

6.  
P Ac  B/ C  PB / C   P A  B/ C 
7. P A  B  / C   P A / C   PB / C   P A  B  / C 

Ejercicio 12. Una empresa de turismo vende tres planes de viajes para la ciudad del
Cusco y para la ciudad de Arequipa. En una encuesta realizada por internet, resultó la
siguiente tabla de los porcentajes de clientes con las preferencias de los planes y las
ciudades.

Ciudad Plan 1 (P1) Plan 2 (P2) Plan 3 (P3) Total

Cusco (C) 0.05 0.10 0.05 0.20


Arequipa (A) 0.15 0.40 0.25 0.80
Total 0.20 0.50 0.30 1.00

Si se selecciona al azar a un cliente que ha sido encuestado por internet:

100
UNA La Molina - Dpto. de Estadística e Informática Estadística General

a. ¿Cuál es la probabilidad de que desee viajar al Cusco y que no tenga preferencia por
el Plan 1?

b. Si el cliente no prefiere el Plan 2, ¿cuál es la probabilidad de que prefiera el Plan 3?

c. Si el cliente no prefiere el Plan 1, ¿cuál es la probabilidad de que desee viajar a la


ciudad de Arequipa?

Ejercicio 13. Durante el mes de diciembre del año pasado, el 50% de los clientes del
centro comercial PLAZUELA compraron el producto “W”, el 40% compraron el producto
“V”, y de los que compraron el producto “V”, el 20 % compraron el producto “W”.

a. Si se elige un cliente al azar, encuentre la probabilidad de que no haya comprado


estos productos.

b. Si del grupo de clientes que no compraron el producto “W” se selecciona al azar un


cliente, hallar la probabilidad de que haya comprado el producto “V”.

101
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 14. En la Facultad de Agronomía se ha determinado que el 10% de


estudiantes son aficionados al tenis y el 20% son aficionados al fútbol. Se sabe que,
entre los aficionados al fútbol el 75% no son aficionados el tenis. Si se selecciona un
estudiante al azar, hallar la probabilidad:

a. No sea aficionado al fútbol, pero le guste el tenis.

b. Que le guste sólo un deporte

c. Le guste el tenis si se sabe que no es aficionado al fútbol.

6.5 La regla de la multiplicación

P A  B  P A  B 
Se sabe que: P A B   y PB A  , de estas expresiones se
P B  P A

P A  B   PB P A B 
establece que:
 P APB A

Generalizando: Sean los eventos A1, A2, ... , Ak entonces:


P A1  A2  A3    Ak   P A1 P A2 A1 P A3 A1  A2 P Ak A1  A2    Ak 1 

102
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 23
Si se eligen al azar 2 artículos de un cargamento de 250, de los cuales, 20 están
defectuosos. Halle la probabilidad de que ambos estén defectuosos si:

a. La selección es sin reemplazo

Sean los eventos: Di = {el artículo seleccionado en el lugar i está defectuoso}


Dic = {el artículo seleccionado en el lugar i no está defectuoso}
 20  19 
PD1  D2   PD1 PD2 D1       0.0061
 250  249 
Otra manera de resolver este problema es con la definición clásica de probabilidad y
utilizando las técnicas de conteo

b. La selección es con reemplazo.(queda como ejercicio)

Ejemplo 24
Si se eligen al azar 3 artículos de un cargamento de 250, de los cuales, 20 están
defectuosos.

1. Halle la probabilidad de que los 3 estén defectuosos si:

a. La selección es hecha sin reemplazo.


 20  19  18 
PD1  D2  D3   PD1 PD2 D1 PD3 D1  D2        0.0004
 250  249  248 
b. La selección es con reemplazo.(queda como ejercicio)

6.6 La ley de probabilidad total

Sean los eventos A1,A2,...,Ak mutuamente excluyentes del espacio muestral Ω, esto es;
k
Ai  Aj    i  j  1, 2,  , k , y colectivamente exhaustivos A j  A1  A2   Ak   ,
j 1

k  k
entonces: P  Aj    PAj  . Luego, para cualquier otro evento B definido:
 j 1  j 1

Entonces, la probabilidad del evento B, se calcula por:

PB   P( A1  B)  P( A2  B)  ...  P( Ak  B)   PAj  B  .


k

j 1

 P( A1 ) P( B / A1 )  P( A2 ) P( B / A2 )  ...  P( Ak ) P( B / Ak )   PA j PB A j 


k

j 1

103
UNA La Molina - Dpto. de Estadística e Informática Estadística General

6.7 Teorema de Bayes

Sean los eventos A1, A2,..., Ak mutuamente excluyentes y colectivamente exhaustivos


con PA j   0 para j = 1, 2,..., k. Entonces para cualquier otro evento B para el que
P(B)  0 :
P Ah  B  P A PB Ah 
P Ah B    k h
P B 
 PAj PB Aj 
j 1

Como puede notarse en la igualdad anterior, se usa en el numerador la regla de la


multiplicación y en el denominador la ley de probabilidad total.

Ejemplo 25
Suponga que una caja C1 contiene 4 esferas blancas y 2 azules y que otra caja C 2
contiene 4 esferas blancas y 6 azules. La probabilidad de elegir la caja C 1 es el doble de
probabilidad de elegir la caja C2. Si se elige al azar una caja y de ella se elige al azar
una esfera, halle la probabilidad que:

a) se elija una esfera azul si se sabe que esta proviene de la caja C 2.


b) se elija la caja C2 y la esfera es azul.
c) se elija una esfera azul.
d) se haya elegido la caja C2 si la esfera elegida fue azul.

Solución

ul 2/6 = P(A/C1)
Az
1 2/3=P(C1)
ja
a Ca Blan 4/6 = P(B/C1)
l ca
ir
l eg
E

Ele ul 6/10 = P(A/C2)


gir Az
la
Ca
ja 1/3 =P(C2)
2
Bla
nc
a
4/10 = P(B/C2)

a) Se elija una esfera azul si se sabe que esta proviene de la caja C2

P(A/C2) =6/10

b) Se elija la caja C2 y la esfera es azul

P(C2  A) = P(C2)*P(A/C2)=1/3 * 6/10 = 6/30

c) Se elija una esfera azul

P(A)=P(C1  A)+P(C2  A)= 2/3 *2/6+1/3*6/10=8/15

d) Se haya elegido la caja C2 si la esfera elegida fue azul

P(C2  A) 6 / 30
P(C2 / A)    3/8
P( A) 8 / 15 104
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 26
Los ingenieros de ventas 1, 2 y 3 estiman los costos de 30%, 20% y 50%,
respectivamente, de todos los trabajos licitados por una compañía. Las probabilidades
de cometer error grave, al estimar el costo, de los ingenieros son 0.01, 0.03 y 0.02
respectivamente.

a. Halle la probabilidad de que se cometa error grave al estimar el costo en una


licitación.

Sean los eventos: Ai = {el ing. “i” estima los costos de una licitación}, i = 1, 2, 3
E = {Se comete error grave al estimar el costo}

Según los datos se tiene:

P A1   0.3 P A2   0.2 P A3   0.5


PE A1   0.01 PE A2   0.03 PE A3   0.02

Aplicando la ley de probabilidad total:

PE   P A1 PE A1   P A2 PE A2   P A3 PE A3   0.003  0.006  0.01  0.019

b. Si en una licitación en particular se incurre en un error grave al estimar los costos


del trabajo. ¿Cuál es la probabilidad de que el ingeniero 2 haya cometido el error?

Aplicando el teorema de Bayes y usando el resultado de la subpregunta a:

P A2 PE A2  0.2  0.03


P A2 E     0.3157
P E  0.019

c. Si en una licitación en particular no se incurre en un error grave al estimar los


costos del trabajo. ¿Cuál es la probabilidad de que el ingeniero 3 haya hecho el
trabajo? (se deja como ejercicio)

Ejercicio 15. Una empresa manufacturera tiene dos máquinas (M1 y M2) para producir
un producto. El área de control de calidad a determinado que la máquina M1 produce el
60% de la producción total y la máquina M2 el restante. El 2% de las unidades
producidas por la máquina M1 son defectuosos, mientras que la máquina M2 tiene una
tasa de defectuosos del 4%. Si se selecciona un producto al azar:

a. ¿Cuál es la probabilidad de que sea defectuoso?

105
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. ¿Cuál es la probabilidad de que haya sido producido por la máquina M1, si se sabe
que es defectuoso?

c. ¿Cuál es la probabilidad de que no sea defectuoso?

Ejercicio 16. En un vivero se tiene plantas de dos variedades (A y B) en un 35% y


65% respectivamente. Se sabe que cierta plaga ataca al 1% de las plantas de la
variedad A y al 3% de las plantas de la variedad B.

a. ¿Cuál es la probabilidad de seleccionar una planta con plaga?

b. Si se elige al azar una planta y se encuentra afectada por la plaga ¿Cuál es la


probabilidad de que sea de la variedad B?

c. Si se elige al azar una planta y no se encuentra afectada por la plaga ¿Cuál es la


probabilidad de que sea de la variedad B?

106
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 17. El área financiera de una distribuidora de productos agrícolas ha


observado que el 25% de las compras son pagadas en efectivo, el 30% son pagadas al
crédito y el resto son pagadas con cheque. Se sabe que el 20% de las compras pagadas
en efectivo, 60% de las compras a crédito y 90% de las compras pagadas con cheque;
se hacen por un monto mínimo de $ 150.

Si el agricultor Juan Pérez acaba de realizar una compra por un monto de $180, ¿cuál
es lo más probable: qué haya pagado la compra, en efectivo, al crédito o con cheque?

6.8 Independencia de eventos

Los eventos A y B son independientes si cuando ocurre uno de ellos esto no afecta la
probabilidad de ocurrencia del otro, o sea:

P  A B   P  A
P  B A  P  B 

En otras palabras, las probabilidades condicionales son iguales a las probabilidades


incondicionales.

Consecuencia: A y B son independientes si P A  B   P APB  . Lo anterior es un


resultado de la definición de independencia y de la regla de la multiplicación.

Teorema Si los eventos A y B son independientes entonces, también lo serán:


1. A y Bc
2. Ac y B
3. Ac y Bc

Entonces se cumple:
 
P A  B c  P  A  P ( B c )
P A c
 B   PA  P( B)
c

P A c
 B   PA  P( B )
c c c

P  A  B   P  A  P ( B )  P  A  P ( B )

Nota: Los eventos A1 y A2 son condicionalmente independientes si:


P  A1  A2 B   P  A1 B  P  A2 B 
107
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 18. En cierta ciudad la probabilidad de que llueva en un día cualquiera es 0.3
y de que ocurra un temblor en un día cualquiera es 0.4. Si estos eventos son
independientes. Calcule la probabilidad de que en un día cualquiera:

a. Llueva y haya un temblor

b. Llueva pero no haya un temblor

c. Llueva o haya un temblor

d. No llueva ni haya un temblor.

e. Llueva dado que ocurrió un temblor.

108
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 27
La probabilidad de que se presente determinada enfermedad es 1/500 y un test para
detectarla es 99% confiable (esto quiere decir que si una persona tiene la enfermedad
la probabilidad de que el test de positivo es 0.99 y si una persona no tiene la
enfermedad la probabilidad de que el test de negativo es 0.99).

a. Si a Ud. le resulta el test positivo ¿Cuál es la probabilidad de que Ud. tenga la


enfermedad?
Solución

Sean los eventos:

B  Ud. tiene la enfermedad , A  A Ud. le corresponde un test positivo

 P( A / B)  0.99
Confiable en este contexto significa: 
 P( A / B )  0.99
c c

1
P  B P  A B  0.99
P  B A   500  0.1655
P  B  P  A B   P  Bc  P  A Bc  1
 0.99 
499
 0.01
500 500

b. Si a Ud. le resulta positivo en dos tests independientes ¿Cuál es la probabilidad de


que Ud. tenga la enfermedad?

Solución

B  Ud. tiene la enfermedad , Ai  A Ud. le corresponde un test positivo en el test i


P  B  P  A1  A2 B 
P  B A1  A2   
P  B  P  A1  A2 B   P  B c  P  A1  A2 B c 
1
 0.99  0.99
 500  0.9516
1 499
 0.99  0.99   0.01 0.01
500 500

Note que aquí se ha trabajado la independencia condicional:


P  A1  A2 B   P  A1 B  P  A2 B 

Independencia de k eventos

Utilizando la regla de la multiplicación generalizada y considerando independencia se


obtiene la siguiente definición: los eventos A 1, A2, ... , Ak son independientes si:

P A1  A2    Ak   P A1 P A2 P Ak 

Cabe mencionar que el teorema anterior también se cumple con k eventos.

Nota: Los eventos A1 , A2 , ,Ak son condicionalmente independientes si:


P  A1  A2   Ak B   P  A1 B  P  A2 B  P  Ak B 
109
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 19. En la fabricación de cierto artículo se encuentra que se presenta un tipo


de defecto con una probabilidad de 0.05 y defecto de un segundo tipo con probabilidad
0.10. Si estos defectos ocurren independientemente ¿Cuál es la probabilidad de que un
artículo seleccionado al azar

a. tenga ambos defectos?

b. por lo menos tenga un defecto?

c. Si se sabe que el artículo es defectuoso, halle la probabilidad de que este sólo


tenga un tipo de defecto.

Ejemplo 28
En cierta población la probabilidad de que una chica mida más de 1.75 m es 0.08; de
que tenga el cabello lacio es 0.22 y de que tenga un buen conocimiento de Estadística
es 0.18. Si estas cualidades son independientes.

a. Halle la probabilidad de que una chica, que va a ser seleccionada al azar, tenga las
tres cualidades.

Solución
Sean los eventos: M = {la chica mide más de 1.75}
L = {la chica tiene cabello lacio}
E = {la chica tiene un buen conocimiento de estadística}
T = {la chica tiene las tres cualidades}

PT   PM  L  E   PM PLPE   0.08  0.22  0.18  0.003168

b. Halle la probabilidad de que una chica, que va a ser seleccionada al azar, tenga
sólo 2 de estas cualidades. (queda como ejercicio)

110
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 4

1. Un grupo de psicólogos realizan un estudio sobre las redes sociales y su influencia


en la juventud. Se toma una muestra aleatoria en un distrito de Lima y se analiza el
tipo de red social y su frecuencia de uso.

Red Social
Frecuencia Menos de 3 Mayor o igual a 3 horas, pero Más de 6 Total
horas menor o igual a 6 horas horas
(T1) (T2) (T3)
Twitter (T) 25 20 40 85
Facebook (F) 30 30 60 120
WhatsApp(W) 50 35 50 135
Total 105 85 150 340

Si se selecciona al azar a un joven:

a) Calcule la probabilidad de que utilice Facebook o el tiempo que pasa en las redes
sociales sea más de 6 horas.

b) Calcule la probabilidad de que no utilice Twitter y el tiempo que pase en las redes
sociales de 3 a 6 horas.

c) Calcule la probabilidad de que no utilice WhatsApp o el tiempo que pase en las


redes sociales no sea menor a 3 horas.

d) Calcule la probabilidad de que no utilice Facebook y el tiempo que pase en las redes
sociales no sea menor a 3 horas

111
UNA La Molina - Dpto. de Estadística e Informática Estadística General

e) Si se selecciona al azar a 25 jóvenes sin reemplazo y sin considerar el orden, ¿Cuál


es la probabilidad de que 12 utilicen Twitter, 8 Facebook y el resto WhatsApp?

f) Si se sabe que el tiempo que pase en las redes sociales es más de 6 horas, calcule
la probabilidad que utilice Facebook.

g) Calcule la probabilidad de que el tiempo que pase en las redes sociales sea menos
de 3 horas o más de 6 horas, si se sabe que utiliza WhatsApp.

2. Suponga que una pollería tiene solamente dos locales: A y B. En el local A laboran
20 personas, de las cuales: 10 son meseros, 5 son cocineros, y 5 de limpieza. En el
local B laboran 16 personas, de las cuales: 9 son meseros, 4 son cocineros, y 3 de
limpieza.

a. Si se elige al azar a un trabajador ¿Cuál es la probabilidad de que sea mesero o


el local de donde labora sea B?

112
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Si se eligen al azar y sin reemplazo dos trabajadores de cada tienda, halle la


probabilidad de que al menos una de dichas personas sea mesero.

c. Tomando en consideración al local A, la probabilidad de que un mesero reciba


durante su atención de todo el día una propina mayor o igual a 30 soles es 0.15,
la probabilidad de que reciba entre 20 y menos de 30 es 0.45, y la probabilidad
de que reciba menos de 20 soles es 0.4. En un día cualquiera de atención del
mesero, ¿cuál es la probabilidad de que reciba menos de 20 soles o mayor a 29
soles?

d. Tomando en consideración el local B, un mesero, un cocinero y uno de limpieza


desean pedir al dueño del local vacaciones. Las probabilidades de que les den
vacaciones a cada uno de ellos son 0.3, 0.6 y 0.8 respectivamente. Asumiendo
independencia. ¿Cuál es la probabilidad de que solo a uno de ellos le den
vacaciones?

113
UNA La Molina - Dpto. de Estadística e Informática Estadística General

3. Una empresa dedicada a la venta de artefactos eléctricos tiene tres vendedores, A,


B, y C. Estos vendedores han realizado, durante el último mes, respectivamente, el
35 %, 15 %, 50% de las operaciones de ventas de la empresa. Del total de
operaciones de venta realizadas por el vendedor A, el 5% tiene error en la orden de
compra para el vendedor B, el 3% tienen error en la orden de compra y para el
vendedor C, el 96% no tienen error en la orden de compra.

a. Si se selecciona al azar una operación de venta, halle la probabilidad de que ésta


tenga error en la orden de compra.

b. Si se selecciona al azar una operación de venta y ésta tiene error en la orden de


compra; determine la probabilidad de que la operación de venta no corresponda
al vendedor B.

c. Se seleccionan, al azar y con reemplazo, 2 operaciones de venta. Calcule la


probabilidad de que en uno de ellas sólo exista error en la orden de compra.
Considere independencia en las operaciones.

114
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. De un grupo de personas, el 30% practica fútbol y el 40% juega ajedrez. De los


futbolistas, el 50% juega ajedrez. Si se elige aleatoriamente una persona ¿Cuál es la
probabilidad de que:
a) juegue fútbol o ajedrez?
b) practique sólo uno de estos deportes?
c) no practique ni fútbol ni ajedrez?

2. De 20 personas que contrajeron cierta enfermedad al mismo tiempo y que fueron


llevados a una misma sala de un hospital, 15 se recuperan completamente en 3
días; al cabo del cual, se escogen al azar 5 personas para un chequeo.
a) ¿Cuál es la probabilidad que los 5 sean dados de alta?
b) ¿Cuál es la probabilidad de que exactamente 4 sean dados de alta?
c) ¿Cuál es la probabilidad que ninguno sea dado de alta?

3. De 200 familias, 80 compran el periódico A, 95 el periódico B y 40 no compran A


pero si B. Si se selecciona una familia al azar, calcule la probabilidad de que:
a) Compre A o B.
b) Compre A pero no B.

4. En una ciudad el 60 % son hombres, el 20 % son de raza negra y el 8 % son


hombres negros. Si se selecciona a una persona al azar de esa ciudad, halle la
probabilidad de que sea una mujer de raza negra.

5. En una fábrica se seleccionó 200 artículos producidos durante un día y se encontró


que 9 tienen fallas de tipo I, 10 tienen fallas de tipo II y 2 tienen ambos tipos de
fallas. Si un artículo es seleccionado al azar, halle la probabilidad de no tenga
ninguno de estos tipos de fallas.

6. Una enfermedad X se puede presentar en forma maligna o benigna. Si se presenta


en forma maligna da origen a un tumor cerebral con probabilidad 0.75, mientras
que la forma benigna produce tumor en un 8 % de los casos. Se sabe además que
la forma benigna es 7 veces más probable que la maligna.
a) ¿Cuál es la probabilidad de que a una persona que padece la enfermedad no le
aparezca el tumor cerebral?
b) Si alguien que padece esa enfermedad tiene tumor cerebral ¿Cuál es la
probabilidad de que tenga la forma maligna?

7. La probabilidad de que un turista haga una reservación con más de una semana de
anticipación es del 10% y la probabilidad de que un turista se inscriba en el tour
completo ofrecido por el hotel es de 35%. Si la probabilidad de que se inscriba en el
tour completo ofrecido por el hotel o haga la reservación con más de una semana de
anticipación es del 40%, ¿Cuál es la probabilidad de que se inscriba en el tour
completo ofrecido por el hotel si se sabe que hizo la reservación con más de una
semana de anticipación?

8. En una investigación realizada a los conductores de taxis, se encontraron los


siguientes resultados: el 20% son mujeres, el 10% de las mujeres tienen estudios
universitarios; el 60% de los hombres no tienen estudios universitarios. Si se toma
un conductor de taxi al azar y resulta que tiene estudios universitarios, ¿cuál es la
probabilidad que sea mujer?

9. Sea A el evento de que un cierto libro de Estadística (primero) se encuentre


prestado fuera de la biblioteca de la universidad, sea B el evento de que otro libro
(segundo) sobre el mismo tema también se encuentre prestado. (Nota: los datos de
la pregunta (a.) difieren de la pregunta (b.))
a) Si P(AB)= 0.2 y P(exactamente un libro esté prestado)= 0.5. Calcular P(AB)

115
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b) Si P(Ac  Bc) = 0.3, P(Ac  Bc) = 0.9 y P(sólo el primer libro esté prestado)=0.4.
Calcular P(A) y P(B)

10. Una planta armadora recibe microcircuitos provenientes de tres distintos fabricantes
(A, B y C). El 52% del total de microcircuitos se compra de A, el 28% de B y el 20%
de C. El porcentaje de microcircuitos defectuosos para A, B y C son 4%, 8% y 10%
respectivamente. Si los microcircuitos se almacenan en la planta sin importar quién
fue el proveedor:
a) Diga, ¿cuál es la probabilidad que la planta no reciba microcircuitos del
fabricante B?
b) Si un circuito no está defectuoso, ¿cuál es la probabilidad de que no haya sido
vendido por el proveedor C?

11. Suponga que una empresa dedicada a realizar revisiones técnicas tiene dos talleres
A y B. Cada propietario o conductor elige al azar un taller para pasar por dos
exámenes 1 y 2. Un vehículo aprueba la revisión técnicas si aprueba los dos
exámenes. Para un vehículo que pasa por el taller A, la probabilidad que apruebe los
dos exámenes es 0.85 mientras que para un vehículo que pasa por el taller B la
probabilidad correspondiente es 0.9. Considerando que la elección del taller A es
igual de probable que la elección del taller B.
a) Halle la probabilidad que un vehículo apruebe la revisión técnica
b) Si se sabe que el vehículo desaprobó la revisión técnica, ¿cuál es la probabilidad
que haya escogido el taller B?

12. Un investigador afirma que, en cierta población, el 60% son hombres; el 70% de los
hombres y el 45% de las mujeres tienen un coeficiente intelectual menor que el
promedio. Si una persona de esa población tiene un coeficiente intelectual de por lo
menos el promedio ¿Cuál es la probabilidad de que sea hombre?

13. Una fábrica confecciona en un día determinado 400 prendas para varones y 600
para mujeres. La probabilidad de que una prenda de mujer tenga falla es de 0.01 y
la probabilidad de que una prenda de varón tenga falla es 0.02. Se elige de la
producción del día una prenda al azar
a) ¿Cuál es la probabilidad de que la prenda tenga falla?
b) Si la prenda elegida no tiene falla, ¿cuál es la probabilidad de que no sea de
mujer?
c) Se eligen cuatro prendas, ¿cuál es la probabilidad de que por lo menos una
prenda tenga fallas?

14. La probabilidad de que la construcción de un edificio se termine a tiempo es 17/20,


la probabilidad de que no haya huelga es ¾, la probabilidad de que la construcción
se termine a tiempo dado que no hubo huelga es 14/15, la probabilidad de que haya
huelga y no se termine la construcción a tiempo es 1/10
a) Hallar la probabilidad de que la construcción se termine a tiempo y no haya
huelga
b) Hallar la probabilidad de que la construcción no se termine a tiempo si hubo
huelga

15. Un estudio acerca de los trabajadores de dos plantas de una empresa


manufacturera incluye la pregunta: “¿cuán efectiva es la gerencia para responder a
las legítimas quejas de los trabajadores?”. En la planta 1, 48 de 192 trabajadores
contestaron “poco efectiva”, una respuesta desfavorable; en la planta 2, 80 de 248
trabajadores respondieron “poco efectiva”. Se va a seleccionar aleatoriamente a un
empleado de la empresa manufacturera. Sea A el evento “el trabajador procede de
la planta 1” y B el evento “la respuesta es desfavorable”.
a) Encuentre P(A), P(B) y P(AB)
b) ¿son independientes los eventos A y B?
c) Encuentre P(B/A) y P(B/Ac), ¿son iguales?

116
UNA La Molina - Dpto. de Estadística e Informática Estadística General

16. Un cazador dispara 7 balas a un león enfurecido. Si la probabilidad de que una bala
mate es 0.6. ¿Cuál es la probabilidad de que el cazador esté todavía vivo?

17. En cierta población de perros: el 40% son de raza Bóxer, 57% son machos y 32%
tienen más de dos años. Asuma que estas tres cualidades son independientes. Si
un perro va a ser seleccionado al azar calcule la probabilidad de que tenga sólo una
de estas cualidades.

18. En un club hay 10 hombres y 12 mujeres. 4 de los hombres y 5 de las mujeres


tienen Maestría. Si seleccionan al azar y sin restitución a 3 personas calcule la
probabilidad de que las tres personas sean hombres o que tengan Maestría.

19. Un dispositivo tiene 3 partes que funcionan independientemente. Sus probabilidades


de falla son: 0.2, 0.3 y 0.4 para la primera, segunda y tercera partes
respectivamente. Hallar la probabilidad de que al menos una de la partes falle.

20. Un lote consta de 10 artículos buenos, 4 con pequeños defectos y 2 con defectos
graves. Se elige un artículo al azar. Encontrar la probabilidad de que:
a) No tenga defectos.
b) Tenga un defecto grave.
c) Que sea bueno o que tenga un defecto grave.
Si se escogen 2 artículos en vez de uno, calcule la probabilidad de que:
d) Ambos sean buenos.
e) A lo menos uno sea bueno.
f) A lo más uno sea bueno.
g) Ninguno tenga defectos graves.

21. En una serie de observaciones del tiempo de sobrevivencia de peces de una


determinada especie en aguas contaminadas, un pesquero ha encontrado que el
95% sobrevive 20 días, el 78% sobrevive 40 días, el 33% sobrevive 80 días, el 6%
sobrevive 100 días y ninguno sobrevive después de 120 días. Estime la probabilidad
de los eventos:
a) Un pez muere dentro de los primeros 20 días.
b) Muere entre 40 y 100 días.
c) Sobrevive a lo más 80 días.
22. En un salón de clases hay 40 personas. 15 son hombres y 26 están en segundo
ciclo de los cuales 18 son mujeres. Si se escoge un estudiante al azar:
a) ¿Cuál es la probabilidad de que sea hombre y no esté en segundo ciclo?
b) Si se selecciona un estudiante y se observa que está en segundo ciclo, ¿cuál es
la probabilidad de que sea mujer?

23. Dos máquinas, A y B, producen el 35% y el 65% de las tuercas de una fábrica. Se
sabe que el 10% y el 15% de las tuercas de cada máquina son defectuosas.
a) Si en el mercado se encontró una tuerca defectuosa ¿Cuál es la probabilidad de
que haya sido producida por la máquina A?
b) Si en el mercado se seleccionaron independientemente dos tuercas y resultaron
defectuosas ¿Cuál es la probabilidad de que hayan sido producidas por la
máquina A?

24. Para evaluar el resultado de una capacitación, un participante está rindiendo un


test de 5 preguntas, donde cada una vale 2 puntos. Ya ha respondido dos
correctamente y decide elegir al azar las tres respuestas que le faltan.
a) Defina el espacio muestral.
b) Si la calificación mínima aprobatoria es 6, ¿Cuál es la probabilidad de que
apruebe el test?

117
UNA La Molina - Dpto. de Estadística e Informática Estadística General

25. En una ciudad se estudia la cantidad de usuarios de Internet de acuerdo a ciertas


variables. En el siguiente cuadro, se muestra la distribución de acuerdo a la Edad y
Velocidad de Internet:

Rango de Edad Total

Velocidad de De 6 a 20 años De 21 a De 31 a Más de 40


Internet 30 años 40 años años
1 Mbps 150 80 50 50 330
2 Mbps 55 30 20 20 125
3 Mbps 25 10 5 5 45
Total 230 120 75 75 500

a) ¿Cuál es la probabilidad que un usuario seleccionado al azar tenga una velocidad


de 2 Mbps y tenga como mínimo 21 años?
b) ¿Cuál es la probabilidad que un usuario seleccionado al azar tenga una velocidad
de 1 Mbps o tenga a lo más 20 años?

26. En la Gerencia de CRM del Supermercado Desco trabajan diez Analistas. Seis de
ellos son informáticos y los otros cuatro son Industriales. Para implementar una
campaña comercial, se debe formar un equipo de cuatro miembros. ¿Cuál es la
probabilidad que hayan dos informáticos en este equipo de cuatro?

27. Una compañía de desarrollo urbano está considerando la posibilidad de construir


un centro comercial en un sector del sur de Lima, Perú. Un elemento vital en esta
consideración es un proyecto de una autopista que una este sector con el centro
de la ciudad. Si el gobierno municipal aprueba esta autopista, hay una
probabilidad de 0,90 de que la compañía construya el centro comercial en tanto
que si la autopista no es aprobada, la probabilidad es solo 0,20. Basándose en la
información disponible, el gerente de compañía estima que hay una probabilidad
de 0,60 que la autopista sea aprobada.
a) ¿Cuál es la probabilidad de que compañía construya el centro comercial?
b) Dado que el centro comercial fue construido, ¿cuál es la probabilidad de que
la autopista haya sido aprobada?

28. Un sistema consiste en tres componentes independientes: A, B 1 y B2. La


probabilidad de falla es 0,01 para A, 0,02 para B1 y 0,10 para B2. Si para el
funcionamiento del sistema son necesarios los componentes A y al menos uno de
los B, ¿cuál es la probabilidad de que el sistema funcione?

29. Una empresa dedicada a estudios de mercado está interesada en analizar la


relación entre la importancia que dan a la publicidad los propietarios y el tamaño
de la tienda que poseen. En el siguiente cuadro se presenta los resultados a una
muestra de 520 propietarios según cuatro tamaños de tienda.

Tamaño de la tienda
Importancia en la Pequeña Mediana Grande Muy grande Total
publicidad (T1) (T2) (T3) (T4)
Nada importante (I1) 100 25 10 15 150
Importante (I2) 30 35 50 55 170
Muy Importante (I3) 20 40 60 80 200
Total 150 100 120 150 520

118
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Si se elige al azar a un propietario, ¿cuál es la probabilidad?:

a) Que no considere que es importante la publicidad pero tiene una tienda grande
b) Tenga una tienda mediana o considere nada importante la publicidad.
c) Que no considere muy importante la publicidad y no tenga una tienda muy grande
d) Considere muy importante la publicidad, si se sabe que no tiene una tienda muy
grande.

30. Los resultados de una encuesta sobre inseguridad ciudadana, indican que el 65%
de las personas han sufrido un robo, el 45% un asalto y el 35% un robo y asalto.
Si se selecciona a una persona al azar.
a) ¿Cuál es la probabilidad que haya sufrido un robo y no un asalto?
b) ¿Cuál es la probabilidad que no haya sufrido un robo o ni un asalto?.

31. Un comerciante adquiere sacos de azúcar de dos azucareras nacionales (A1 y A2).
Se sabe que el 68% de los sacos proviene de A1 y el resto de A2. Además, el 85%
de los sacos que recibe de A1 y el 92% que recibe de A2 son de calidad extra. Si un
saco de arroz se escoge al azar: (defina los respectivos eventos).
a. ¿Cuál es la probabilidad que sea de calidad extra?.
b. Sabiendo que es de calidad extra, ¿cuál es la probabilidad de que provenga de la
azucarera A1?.
c. Sabiendo que no es de calidad extra, ¿cuál es la probabilidad de que provenga de
la azucarera A2?.

32. Las personas sospechosas de incurrir en lavado de activos pueden ser investigadas
por Organismos Gubernamentales responsables. La probabilidad de ser investigada
por el organismo gubernamental A es 0.009 y la probabilidad de ser investigada por
el organismo gubernamental B es 0.018. Si estos eventos son independientes:
a) Calcule la probabilidad de que la persona sospechosa sea investigada por el
organismo gubernamental A pero no por el B.
b) Calcule la probabilidad de que un persona sospechosa sea investigada por el
organismo gubernamental A o por el B.

119
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Determine el espacio muestral para los siguientes experimento aleatorios:


a) Lanzar una moneda y un dado simultáneamente ________________________
b) Anotar el número de artículos defectuosos de un lote de seis ______________
c) Lanzar dos monedas a la vez _______________________________________
2. Si se define el evento A={Todos los clientes cuyo gasto es menor a $500}, entonces
el evento Ac se define ______________________________________________
3. Si en un grupo de 12 amigos de colegio, 5 desean viajar a la selva, 4 a la sierra y 3
a la costa por Semana Santa. Si se selecciona a tres personas al azar, la
probabilidad que haya dos personas que deseen ir a la selva es igual a
____________________________________.
4. Sean los eventos A1, A2,...,Ak definidos sobre Ω, las condiciones que se debe cumplir
para aplicar la ley de la probabilidad total es que los eventos sean
_____________________________________________________________.

5. Si A y B son dos eventos independientes de Ω, entonces P( Ac  Bc ) / Ac  es igual a

_________________ siendo P( Ac )  0 .
6. Si los eventos A y B definidos en el espacio muestral Ω son independientes,
entonces P(Ac/B) es igual a _____________________
7. En una encuesta por teléfono aplicada a los egresados de una entidad educativa
superior, se encontró que el 66% de los encuestados prefieren ahorrar para comprar
su carro, el 46% para estudiar una maestría y el 16% para ambas cosas. Si se
seleccionada al azar a un egresado encuestado, la probabilidad de que no ahorre
para comprar su carro ni para estudiar una maestría es igual a
______________________________________ .
8. Si P(T)=0.25 y P(S)=0.75, sabiendo que los eventos T y S son independientes,
entonces P(T ᴜ Sc) es igual a: ______________________.
9. En un programa de asistencia técnica han participado 120 agricultores en la
capacitación de dos técnicas de manejo de cultivo de frijol (A y B). Se sabe que 80
agricultores han usado la técnica A y el resto la B. De los que usaron la técnica A, el
65% han conseguido aumentar el rendimiento del cultivo de frijol y de los que
usaron la técnica B sólo el 35% consiguieron aumentar su rendimiento. Si se
selecciona al azar a un agricultor que participó el programa, la probabilidad que
haya aumentado su rendimiento de frijol es igual a : _______________________.
10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:
Item Enunciado V/F
a. Para N objetos tomados de n en n, se pude decir que el número de
combinaciones es mayor al número de permutaciones.
b. Se dice que la probabilidad clásica que es a priori, porque se pude
calcular la probabilidad de un evento antes de realizar el experimento.
c. Para dos eventos A y B Ω, los axiomas de la definición clásica
corresponden a: P(A)≥0, P(B)≥0;P(AᴜB)=1 y A∩B=Φ.
d. Sean los eventos A1, A2, y A3 definidos sobre Ω, entonces si se cumple
que A1 ᴜ A2 ᴜ Ak = Ω se puede afirmar que los eventos forman una
partición de Ω.
e. Si los eventos A y B son mutuamente excluyentes, entonces también se
pude decir que son independientes.

120
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO VII

VARIABLES ALEATORIAS

Se estudia las características y tomando en cuenta los conceptos de probabilidades para


entender la definición de una variable aleatoria y su distribución de probabilidad
asociada; así como hallar su media, la variancia y el coeficiente de variación.

Objetivo. Al finalizar este capítulo el estudiante podrá entender el concepto de una


variable aleatoria y las aplicaciones que tiene en la teoría de probabilidades y en el
campo de la inferencia estadística.

7.1 Definición de variable aleatoria

Una variable aleatoria es cualquier función que tiene como dominio a los elementos que
constituyen el espacio muestral de un experimento aleatorio y como rango a un
subconjunto de los reales.

7. 2 Clases de variable aleatoria

Las variables aleatorias pueden ser:


 Variables aleatorias discretas
 Variables aleatorias continuas

Variable aleatoria discreta. Si su rango es un conjunto finito o infinito numerable.

Ejemplo 1
Sea el experimento aleatorio registrar los sexos de los próximos tres niños que van a
nacer. Si se define la v.a.d. Y como el número de niños de sexo femenino que nacerán.
Halle el dominio y el rango de Y.
Solución:
={ MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF }
Y(MMM) =0
Y(MMF) = Y(MFM) = Y(FMM) =1
Y(MFF) = Y(FMF) = Y(FFM) =2
Y(FFF) =3

Entonces RY = {0, 1, 2, 3}

Y = número de niños de sexo femenino que nacerán

 MMM 0 RY
MMF
MFM 1
FMM
Y
MFF
FMF 2
FFM
FFF 3

DY = ={ MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF }


RY = {0, 1, 2, 3}

121
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 2
Se va a registrar la variable aleatoria X definida como el número de autos que llegan
por cada hora a una playa de estacionamiento entonces el dominio de X será el
conjunto de todas las horas en estudio y el rango RX = {0, 1, 2, }

Variable aleatoria continua. Si su rango es un conjunto infinito no numerable.

Ejemplo 3
Se desea determinar el pH de un compuesto químico seleccionado al azar, entonces la
variable aleatoria X definida como el pH del compuesto es una variable aleatoria
continua con rango 0,14

7.3 Función de probabilidad de una variable aleatoria discreta

Sea X una variable aleatoria discreta. Se denomina función (ley, modelo o distribución)
de probabilidad de X a la función f  x  definida por f x   P X  x  para todo número
real x, que satisface las siguientes condiciones:
i) f  x  0 para x  Rx
ii ) f  x   0 para x  Rx
iii )  f x  1
xi RX
i

Ejemplo 4
Con relación al Ejemplo 1, halle la función de probabilidad de la v.a.d Y definida como el
número de niños de sexo femenino que nacerán, asumiendo que los eventos simples
son igualmente probables (o que P(M)=P(F)=1/2 y que M y F son eventos
independientes).

Se tiene el rango: RY = {0, 1, 2, 3}

Cálculo de las probabilidades para cada valor de la variable aleatoria:


1
f 0   PY  0   PMMM  
8
3
f 1  PY  1  PMMF , MFM , FMM  
8
3
f 2   PY  2   PMFF , FMF , FFM  
8
1
f 3  PY  3  PFFF  
8

La función de probabilidad también se puede representar de la siguiente manera:

Y 0 1 2 3
f  y   PY  y  1/8 3/8 3/8 1/8
1
 8 x  0,3

3
Otra forma de representar: f  x   P X  x    , x  1,2
8
 0, otros valores de x


1 3 3 1
Se cumple que:  f x  f 0  f 1  f 2  f 3  8  8  8  8  1
xRX

122
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 5
El número de unidades vendidas por día del artículo Z es una variable aleatoria tiene la
siguiente función de probabilidad:
c, x  1, 2
1

 , x  3, 4
f  x   P X  x    8
2c, x  5, 6


0, otros valores de x
Determine el valor de c.

Solución
Por propiedad:
1 1
 f x  1  f 1  f 2  f 3  f 4  f 5  f 6  c  c  8  8  2c  2c  1
xR X

1
resolviendo la ecuación resulta c  .
8

Ejemplo 6
Se tienen 6 impresoras, de las cuales 2 están defectuosas. Si se seleccionan 3 de ellas,
sin reemplazo, determine la función de probabilidad de la variable aleatoria definida
como el número de impresoras defectuosas seleccionadas.

Solución
Sean los eventos: D0 = {obtener 0 impresoras defectuosas y 3 no defectuosas}
D1 = {obtener 1 impresora defectuosa y 2 no defectuosas}
D2 = {obtener 2 impresoras defectuosas y 1 no defectuosa}

Sea X = Número de impresoras defectuosas seleccionadas

El rango es: RX = {0, 1, 2}


 2  4
  
nD0   0   3  4
f 0  P X  0  PD0    
n  6 20
 
3
 2  4
  
nD1  1   2  12
f 1  P X  1  PD1    
n   6 20
 
3
 2  4
  
nD2   2  1  4
f 2  P X  2  PD2    
n   6 20
 
3
0.2 x  0, 2

La función de probabilidad queda definida: f  x   P  X  x   0.6 x  1
0 Otro caso

123
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 1. Una muestra aleatoria con reposición de tamaño n=2 se selecciona del
conjunto {1,2,3} obteniéndose un espacio muestral:

  1,1 , 1, 2  , 1,3 ,  2,1 ,  2, 2  ,  2,3 , 3,1 , 3, 2  , 3,3


Sea X la variable aleatoria la suma de los dos números. Hallar la función de
probabilidad de la variable aleatoria X.

Ejercicio 2. Un dispositivo está compuesto por tres elementos (A, B y C) que trabajan
independientemente. La probabilidad de falla de cada elemento en una prueba es 0.1.

a. Halle la función de probabilidad de la variable aleatoria X: número de elementos que


fallan en una prueba.

b. ¿Cuál es la probabilidad de que falle al menos un elemento en una prueba?.

124
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 3. En un distrito de Lima el número de hijos por familia es una variable


aleatoria con la siguiente función de probabilidad:

0.5k x  0;1
k x  2;3

P  X  x  
2.0k x4
0 otra manera

a. Halle el valor de k para que f(x) sea una función de probabilidad.

b. Si se escoge al azar una familia, ¿cuál es la probabilidad de que tenga por lo menos
dos hijos?

7.4 Función de densidad de una v.a continua X

La función f  x de la v.a. continua X es su función de densidad si cumple con lo


siguiente:

1. f  x   0 , x  R , f  x  no es una probabilidad por ejemplo f  x  =3.9 es


posible.

2.  f  x  dx  1

b
3. Si A   x a  x  b  P  A   P  a  X  b    f  x  dx
a
b
4. P  a  X  b   P  a  X  b   P  a  X  b   P  a  X  b    f  x  dx
a

X n 1 bn 1  a n 1
b b

a X dx  n  1 
n
Usando el operador integral:
a n 1

125
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 7
Suponga que el tiempo, en horas, que necesita un técnico para reparar cierta avería de
un artefacto eléctrico es una variable aleatoria que tiene la siguiente función de
densidad:

k  6  x  , 1  x  3
f  x  
0 , para otros valores de x

a. Halle el valor de k para que f(x) sea una función de densidad.



Por propiedad:  f  x  dx  1 , entonces,

 1 3  3
1
 f  x  dx   f  x  dx   f  x  dx   f  x  dx  k   6  x  dx  k 8  k  8
  1 k 6 x 3 1
cero   cero

1
 6  x , 1  x  3
Entonces la función de densidad: f  x    8

0 , para otros valores de x
b. Calcule la probabilidad de que un técnico demore por lo menos 1.8 horas pero
menos de 2 horas en reparar esa avería.
2 2
1
A   x 1.8  x  2  P  A  P 1.8  X  2    f  x  dx   8  6  x  dx  0.1025
1.8 1.8

c. ¿Cuál es el tiempo máximo que necesita un técnico para reparar cierta avería de
un artefacto eléctrico para estar dentro del 18% de los que usan menor tiempo?

1
6  x dx  0.18
k
P( X  k )  
1 8

k  1.26 horas

Ejercicio 4. Sea la V.A. X: Peso de un artículo (Kg), cuya función de densidad está
dada por:

2
 x, 1  x  2
f ( x)   3
0 Otro caso

a. Verifique que f(x) es una función de densidad

126
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Halle la probabilidad de que un artículo pese entre 1 y 1.5 kg.

c. Halle la probabilidad de que un artículo pese al menos 1.8 kg.

7.5 Valor esperado, esperanza matemática o media de una variable aleatoria X

La media de una v.a X, que tiene como función de probabilidad f  x  , está dada por:

1.  X  EX    x f x  si X es una variable aleatoria discreta.


xRX

2. X  E  X    x f  x  dx si X es una variable aleatoria continua.


Propiedades del valor esperado

1. Si c y d son constantes reales, entonces, E c X  d   c E  X   d


2. Consecuencias de la propiedad 1:
a. E d   d
b. E  X  d   E  X   d
c. E c X   c E  X 
3. Si X e Y son v.a. y c, d son constantes reales, entonces:
Ec X  d Y   c E X   d EY 
Casos particulares: E  X  Y   E  X   E Y 
E  X  Y   E  X   E Y 
 n  n
4. Si X1 , , X n son v.a. entonces E   Xi    E  Xi 
 i 1  i 1

7.6 La variancia de una variable aleatoria X

La variancia de una v.a X está dada por el valor esperado de la función


h X    X   X 
2
, es decir:

 
 X2  Var  X   E  X   X 2  E( X 2 )  ( E( X ))2  E( X 2 )   2

 X  f ( x), caso discreto


 2
2
donde : E ( X )  

 X 2  f ( x)dx, caso continuo

127
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Propiedades de la variancia

La variancia es un número real positivo que cumple con las siguientes propiedades:

1. Si c y d son constantes reales, entonces, Var c X  d   c 2 Var  X 


2. Consecuencias de la propiedad 2:
a. Var d   0
b. Var  X  d   Var  X 

c. Var c X   c2 Var  X 
3. Si X e Y son v.a. independientes y c, d son constantes reales, entonces:
Var c X  d Y   c 2 Var  X   d 2 Var Y  .

Casos particulares: Var  X  Y   Var  X   Var Y 


Var  X  Y   Var  X   Var Y 
 n  n
4. Si X1 , , X n son v.a. independientes entonces Var   X i   Var  X i 
 i 1  i 1

Ejemplo 8
Suponga que una librería compra 6 ejemplares de un libro y el número de ejemplares
vendidos en tres meses, tiene la siguiente función de probabilidad:

X 1 2 3 4 5 6
f x  1/8 1/8 1/8 1/8 2/8 2/8

a. Halle el número de ejemplares que se espera vender en tres meses.

1 1 1 1 2 2
 X  E X    x f x  1 8  2  8  3  8  4  8  5  8  6  8  4 unidades
xR X

b. Halle la variancia del número de ejemplares vendidos en tres meses.


Por la propiedad 1 de la variancia: Var  X   E X 2    X2
1 1 1 1 2 2
 X  E X 2  
2  x f x   1  8  2
2 2 2
  32   42   52   62   19
xR X 8 8 8 8 8
entonces: Var  X   E X 2    X2 = 19 – 42 = 3 unidades2

c. Calcule el coeficiente de variación del número de ejemplares vendidos en tres


meses.

X 3
CVX   100   100  43.3 %
X 4
d. Suponga que la librería compra 6 ejemplares de un libro a $10.00 cada uno, para
venderlos a $20.00 teniendo en cuenta que al terminar el periodo de 3 meses,
cualquier ejemplar no vendido se venderá a $7.00. Calcule la media, la variancia y
el coeficiente de variación de la utilidad neta.

Sean las variables: X = número de ejemplares vendidos


6–X = número de ejemplares no vendidos
U = utilidad neta

128
UNA La Molina - Dpto. de Estadística e Informática Estadística General

U = 20 X + 7 ( 6 – X ) – 60 = 13 X – 18 , aplicando la propiedad 1 del valor


esperado y la propiedad 2 de la variancia se tiene lo siguiente:

E (U) = E (13 X – 18) = 13 E (X) – 18 = 13 (4) – 18 = $34


Var (U) = Var (13 X – 18) = 132 Var (X) = 132 (3) = 507

507
CVU =  100  66.2 %
34
e. Calcule la probabilidad de que la utilidad neta sea mayor que 34.

2 2
PU  34  P13 X  18  34  P X  4  P X  5  P X  6    0.5
8 8

Ejercicio 5. Sea la variable aleatoria X, definida como el número de artículos


defectuosos producidos por día, cuya función de probabilidad es:

0.1, x  0
kx, x  1,2

f ( x)  P( X  x)  
k (5  x), x  3,4
0 otro caso

a. Halle el valor de k para que f(x) sea una función de probabilidad.

b. ¿Cuál es la probabilidad de encontrar por lo menos dos artículos defectuosos en un


día cualquiera?

c. Halle el valor esperado y el coeficiente de variabilidad.

129
UNA La Molina - Dpto. de Estadística e Informática Estadística General

d. Si la empresa estima que la perdida por cada artículo defectuoso por día es de
$25.0 y un gasto de reenvió de $4.5. Halle la pérdida media y el coeficiente de
variabilidad.

Ejemplo 9
La v.a. continua X definida como la proporción de accidentes fatales por mes que
ocurren en determinada ciudad tiene como función de densidad:

2 x , para 0  x  1
f  x  
0 , para otros valores de x

a. Calcule la probabilidad de que la proporción de accidentes por mes sea menor que
0.4
0.4 0.4 0.4
 x2  0.4
P  X  0.4   P  0  X  0.4    f  x  dx   2 x dx  2    x 2   0.16
 2 0
0
0 0

Nota: Como X es una v.a. continua se cumple que:

0.4
P  0  X  0.4   P  0  X  0.4   P  0  X  0.4   P  0  X  0.4    f  x  dx  0.16
0
b. Encuentre la proporción media de accidentes fatales por mes en esa ciudad.
 1 1
2 3 1 2
X  E  X    x f  x  dx   x  2 x  dx   2 x 2 dx  x  
 0 0
3  0 3

c. Halle la variancia de X.
 1 1
2 4 1 1
EX2   x 2 f  x  dx   x 2  2 x  dx   2 x3 dx  x  
 0 0
4  0 2
2
1 2 1
 X2  E  X 2    E  X  
2
  
2  3  18

d. Si Y=0.8X-0.02, calcule la media y la variancia de Y.

E(Y)=E(0.8X-0.02)=0.8E(X)-0.02= 0.5133
1
Var(Y)=Var(0.8X-0.02)= 0.8
2
Var  X   0.82    0.0356
 18 
e. Halle la P Y  0.3
P Y  0.3 = P  0.8 X  0.02  0.3  P  X  0.4  0.16

130
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 6. Se sabe que el tiempo (en minutos) que demora un automóvil en pasar la
revisión técnica, es una variable aleatoria que tiene la siguiente función de densidad.

 x
 20  x  40
f ( x)   600

0 otro caso
a. ¿Cuál es la probabilidad de que un automóvil tarde en pasar la revisión técnica
menos de 32 minutos?.

b. Halle el porcentaje de automóviles que tardarán en pasar la revisión técnica entre 25


y 35 minutos.

c. Halle la media y el coeficiente de variabilidad del tiempo que se demora en pasar la


revisión técnica.

d. Si al implementar dos casetas par la revisión se espera disminuir el tiempo en un


12.5%, halle el nuevo tiempo medio que demora los automóviles en pasar la
revisión técnica.
e.

131
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. El gerente de una empresa de transporte sabe que la distribución de la demanda de


pasajes que diariamente solicitan a su agencia es la que se presenta a continuación.
Los valores positivos indican que el número de pasajes solicitados exceden la
capacidad del ómnibus, mientras que los negativos indican que la demanda de
pasajes es menor a la capacidad del ómnibus.
0.05 X  15
0.15 X  10

f ( X )   0.55 X 0
 0.1 X  10

 0.15 X  15

a) ¿Cuál es la probabilidad que en un día la demanda de pasaje exceda la


capacidad del ómnibus?
b) ¿Cuál es la probabilidad que de tres días seleccionados aleatoriamente dos de
ellos tengan una demanda de pasajes igual a la capacidad del bus?
c) El gasto (Y, en dólares) que ocasiona a los operadores logísticos cuando la
demanda de pasajes no es igual a la capacidad del bus, puede expresarse como:
Y = 2|X|. Halle el gasto medio esperado.

2. El gerente de la empresa de juguetes plásticos le ha encargado al nuevo asistente


que investigue sobre los registros de ventas de un tipo de camioncitos y como
resultado ha calculado la siguiente distribución de probabilidades para sus ventas
anuales.
Unidades (ventas) 3000 4000 4500 5000
Probabilidad 0.2 0.4 0.2 0.2
¿Cuántos camioncitos se esperaría vender el próximo año?

3. De acuerdo con el ministerio de transporte, se sabe que el número de accidentes por


semana que ocurren en una empresa es una variable aleatoria X con función de
distribución de probabilidades dado por:

X 0 1 2 3 Otros valores
f(x) 0.28 0.35 0.22 0.15 0
a) Hallar la media, la variancia y coeficiente de variación de X.
b) Si en una semana se sabe que ocurrió al menos un accidente, ¿cuál es la
probabilidad de que en dicha semana haya ocurrido exactamente uno?
c) Si la empresa incurre en una pérdida semanal Y (soles) según el número de
accidentes dada por: Y = 10 + 8X. Hallar la pérdida esperada semanal.

4. Cierta variedad de planta es sembrada en parcelas utilizando determinado


fertilizante. Suponga que la producción X, en miles de Kilos por parcela es una
variable aleatoria continua con la siguiente función de densidad:

k  x  1 , para 1  x  3
f  x  
0 , para otros valores de x

a) Halle el valor de k.
b) Calcule la probabilidad de que una parcela tenga una producción de por lo
menos 1500 Kilos pero menos de 2000 Kilos.

132
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c) Si se eligen independientemente 10 parcelas, halle la probabilidad de que en 5


de ellas la producción sea mayor que 1000 kilos pero menor que 2000 Kg.
d) Determine el valor de la media y la variancia de X.
e) Un especialista ha establecido que debido a un nuevo fertilizante, la producción
(en miles de kilos) es una v.a. Z=1.2X-0.08. Calcule la media y la variancia de
Z.
f) Halle la probabilidad de que la producción con el nuevo fertilizante sea menor
que 1733.4 kilos.

5. Si el peso X, de un artículo en Kg. tiene como función de densidad:

 x 8
 , para 8  x  10
f ( x)   2

 0 , de otro modo
a) Calcule E(X) y Var(X).
b) Si el precio de venta es de 2 u.m. y el costo es de 1 u.m, garantizando un
reintegro cuando el peso es menor de 8.25 Kg. Halle la utilidad esperada por
artículo.

6. Suponga que el número de accidentes por semana que ocurren en una empresa es
una variable aleatoria X con función de distribución de probabilidades dada por:

X 0 1 2 3 Otros valores
f(x) 0.28 0.35 0.22 0.15 0
a) Hallar la media y la variancia de X.
b) La empresa incurre en una pérdida semanal Y según el número de accidentes
dada por Y = 10 + 8X. Hallar la pérdida esperada semanal.
c) Determinar la función de distribución acumulada.
d) Si en una semana se sabe que ocurrió al menos un accidente, ¿cuál es la
probabilidad de que haya ocurrido exactamente uno?

7. Juan Quispe planea gastar su gratificación en comprar un Blue Ray en Jim´s Video
Service a un precio de US$300. Ahora tiene la opción de comprar una póliza de
servicio extendido que ofrece cinco años de cobertura por US$100. Después de
conversar con sus amigos y leer los informes, Juan cree que puede incurrir en los
siguientes gastos de mantenimiento durante los próximos cinco años:

GASTO 0 50 100 150 200 250 300


PROBABILIDAD 0,35 0,25 0,15 0,10 0,08 0,05 0,02

a. ¿Cuál es el valor esperado de los costos de mantenimiento pronosticados?


b. ¿Debe Juan pagar US$100 por la garantía? Fundamente su respuesta

8. Sea la variable aleatoria X con la siguiente distribución:

xi p(xi)
0 a/9
1 2a/9
2 5a/9
3 a/9
a) Hallar a.
b) Hallar E(x) y V(X).
c) Hallar: E(Y) y V(Y), donde Y= 3X+4.
d) Calcular P(Y>1)

133
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. El dominio de una variable aleatoria es ________________________ y su rango es


________________________
2. La función f(x) de una variable aleatoria discreta es conocida como
_________________________________. Dos de sus condiciones
son:______________________________________________
3. El rango de una variable aleatoria discreta es un conjunto _____________________
y el rango de una variable aleatoria continua es un conjunto __________________.
4. Si X es una variable aleatoria, siendo Var(X)=45 y E(X)=5, entonces E(X2) es igual
a ___________________________
5. En las siguientes funciones f(x) indique si son o no funciones de probabilidades

a) b)
X 2 4 6 8 10 X -1 0 1 2
f(x) 0.2 0.2 0.2 0.2 0.2 f(x) 0.25 0.25 0.25 0.25
c) d)
X 10 20 30 40 X 0 1
f(x) 0.2 0.2 0.2 0.2 f(x) -0.5 0.5

________________________________________________________________.

6. Para los siguientes experimentos aleatorios defina el rango de la variable aleatoria:

a) Lanzamiento de dos monedas, sea X=Número de caras obtenidas ____________


b) Observar un lote de 5 artículos, sea X=Número de artículos defectuosos ______
c) Lanzar dos dados, sea X=La suma de las caras superiores __________________
d) El número de quejas recibidas por una operadora en una semana ____________
7. Si X es una variable aleatoria, tal que P(X<12.5)=0.25 y P(X<18.5)=0.75, entonces
el rango intercuartil será igual a __________________________.

8. Si f (x)=10 ; 1 ≤ x ≤ a, el valor de “a” es igual a _________________________

9. Si f(x)=1/12; 6 ≤ x ≤ 18, verifique que E(X)=(6+18)/2 y Var(X)=(18-6)2/12;


___________________________________________________

10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F


a. El valor esperado de una variable aleatoria es un valor que siempre es
igual a uno de los valores del rango de la variable.
b. f(x) denota la función de probabilidad si X es una V.A. discreta y
función de densidad si es continua.
c. El valor esperado de una variable aleatoria nunca puede tomar valores
negativos
d. Sean X e Y variables aleatorias, entonces Var(X-Y)=Var(X)-Var(Y)
e. Una variable aleatoria discreta y continua nunca puede tomar valores
negativos

134
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO VIII

PRINCIPALES DISTRIBUCIONES DISCRETAS

Se estudiarán las principales distribuciones que corresponden a las variables aleatorias


discretas que son utilizadas muchas aplicaciones en el mundo real, conociendo su
función de probabilidad.

A continuación se presentan las principales distribuciones discretas:

 La distribución de probabilidad binomial


 La distribución de probabilidad hipergeométrica
 La distribución de probabilidad Poisson

Objetivo. Identificar y aplicar una variable aleatoria discreta, asociada alguna de las
principales distribuciones discretas estudiadas.

8.1 La Distribución Binomial

Experimento Binomial

Hay muchos experimentos que se ajustan ya sea exacta o aproximadamente a las


siguientes propiedades:

1. El experimento consiste en una secuencia de n intentos (experimentos de


Bernoulli), donde n se fija antes del experimento.
2. Los intentos son idénticos, y cada uno de ellos puede dar lugar a dos posibles
resultados, llamados: éxito (E) o fracaso (F).
3. Los intentos son independientes, por lo que el resultado de cualquier intento
particular no afecta el resultado de cualquier otro intento.
4. La probabilidad de éxito es constante de un intento a otro; se denota esta
probabilidad por PE    . La probabilidad de fracaso es P  F   1

Ejemplo 1
En una tienda la llegada de un cliente y determinar si compra o no es un experimento
de Bernoulli donde éxito: E = {un cliente compra} y fracaso: F = {un cliente no
compra}. Se sabe que el 75% de los clientes que llegan hacen una compra, entonces
PE    = 0.75.
Si a la tienda llegan 20 clientes, este sería un experimento binomial donde n=20 y =
0.75

La Función de Probabilidad Binomial

Dado un experimento binomial entonces la v.a.d. binomial X se define como el número


de éxitos en n intentos, y su función de probabilidad está dada por:

 n  x
   1   
n x
x  0, 1, 2, , n
f x   P X  x    x 
 0 de otro mod o

Notación: X ~ Binomial  n ,  

La Media y la Variancia de X

Si X ~ Binomial  n ,   entonces:   E X   n  y  2  Var  X   n 1   


135
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 2
Un examen consta de n = 25 preguntas, cada una de las cuales tiene 5 alternativas de
las cuales sólo una es correcta, si una persona está adivinando al responder y se desea
saber el número de respuestas correctamente respondidas.

Entonces, este es un experimento Binomial con éxito: E={la respuesta es correcta} y


1
fracaso: F={la respuesta no es correcta} y siendo: PE     .
5
Sea la v.a. X=El número de respuestas correctas en las 25 preguntas,
X  Binomial (25,0.2)

La distribución de probabilidad Binomial será:


 25 
f x     0.2 x  0.825 x x  0,1, 2, ...,2 5
x 

La probabilidad de que la persona acierte por lo menos 3, pero menos de 5 preguntas


es:

P(3  X  5)  P(3  X  4)  P( X  3)  P( X  4)
 C325 0.23  0.822  C425 0.24  0.821  0.1358  0.3225

Ejemplo 3
Siguiendo con el Ejemplo 1.
Éxito: E={un cliente compra} y fracaso: F ={un cliente no compra}. Se sabe que el
75% de los clientes que llegan hacen una compra, entonces PE    = 0.75.
Si a la tienda llegan 20 clientes, este sería un experimento Binomial con n=20 y =
0.75.

Solución.
Sea v.a. X=El número de clientes que hacen una compra. La distribución de
 20 
probabilidades se define: f x     0.75x  0.2520 x x  0,1, 2, ...,2 0
x 
La probabilidad de que el número de clientes que hacen una compra sea mayor que 18
sería:
 20   20 
P( X  18)    0.75190.251    0.75200.250  0.0211  0.0032  0.0243
 19   20 

Ejemplo 4
Una compañía vendedora de equipos electrónicos verifica que de todas las máquinas
por ella instaladas, el 40 % exigen nuevos ajustes después de su instalación. Si 5
máquinas fueron seleccionadas al azar:

a. ¿Cuál es la probabilidad de que al menos 3 requieran trabajos de ajuste después de


la instalación?

El experimento aleatorio que consiste en determinar el número de máquinas que


requieren ajustes, en un grupo de 5, es un experimento Binomial con éxito:
E={una máquina requiere ajustes} y PE     0.4 .

La v.a.d. X definida como el número de máquinas, que requieren ajustes, en un


grupo de 5, es una v.a. binomial. X ~ Bin n ,  ~ Bin 5,0.4 , entonces:

136
UNA La Molina - Dpto. de Estadística e Informática Estadística General

5 
f x     0.4 x  0.65 x x  0,1, 2, 3, 4, 5
 x
5
5 
P X  3  f 3  f 4  f 5     0.4 x  0.65 x  0.2304  0.0768  0.0102  0.3174
x 3  x 
b. La compañía estima que el costo del ajuste después de la instalación es de 100 um
por máquina y que este costo lo debe pagar la compañía ¿Cuál es el costo esperado
para la firma?

Solución.-
Sea la v.a. Y definida como el costo de las máquinas que necesitan ajuste en un
grupo de 5.
Y = 100 X y como:
X ~ Bin n ,  , entonces E  X   n  5  0.4  2 por lo tanto:

E Y   E 100 X   100 E  X   100  2  200 um

Ejemplo 5
El gimnasio “El Rápido” ha comprobado que el 20% de sus alumnos se dan de baja
durante el primer mes y el 80% restante permanecen todo el año. Suponga que este
año se inscribieron 20 alumnos.

a. ¿Cuál es la probabilidad de que se den de baja más de dos alumnos?

Sea la v.a. X=número de alumnos que se dan de baja en el gimnasio.


π=0.20 y n=20; entonces: X ~ Binomial (20;0.20)

p(X > 2) =1- p(X ≤ 2) =1-0.20608472 = 0.79391528

b. ¿Cuál es la probabilidad de que permanezcan 12 alumnos todo el año?


Sea la v.a. Y=número de alumnos que permanecen todo el año en el gimnasio.
π=0.80 y n=20; entonces: Y~ Binomial (20;0.80)

P(Y=12) = 0.02216088

c. Al hacer la inscripción se realiza un único pago anual de $ 600. Si cada alumno que
permanece todo el año genera un gasto anual para el gimnasio de $ 150, ¿cuál es el
beneficio anual esperado para el gimnasio?

Ingreso: I = 600*20=12000 Gasto: G= 150*(20-X)


Beneficio: B = I – G = 12000 - (3000 – 150X) = 9000+150 X
Se tiene: E(X) = 20*0.2=4
E(B) = 9000+150*4 = 9600

137
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 1. Se conoce por experiencias anteriores que el 20% de las plantas de


limonero son atacadas por cierta plaga. Si se desea llevar a cabo un experimento con
10 plantas.

a. Defina la variable aleatoria y su distribución de probabilidades

b. ¿Cuál será la probabilidad de que 5 plantas sean atacadas?

c. ¿Cuál será la probabilidad de que 3 o más plantas sean atacadas?

d. ¿Cuál será la probabilidad de que más de 1 pero menos de 5 plantas sean


atacadas?

e. ¿Cuál es el número esperado de plantas enfermas en la muestra?. ¿Cuál es la


desviación estándar?

138
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 2. Una institución educativa conmemora sus 100 años de fundación, con tal
motivo la junta directiva ha invitado a sus 25 profesores fundadores a la ceremonia
principal. Se cree que la probabilidad de que un profesor fundador asista a la ceremonia
es de 0.75.

a. ¿Cuál es la probabilidad de que al menos 96% de los profesores fundadores asistan?

b. Si ya confirmaron su asistencia al menos dos profesores fundadores, ¿cuál es la


probabilidad de que asistan más de 23 profesores fundadores?

c. La empresa que da servicios de buffet cobra por persona $35, halle el costo
esperado para la ceremonia.

Ejercicio 3. Un inspector de la SUNAT realiza 12 visitas cada día a las bodegas de Lima
Metropolitana, aplicando una multa a las bodegas que no entregaron el comprobante de
venta. Sabiendo que la probabilidad de que una bodega sea multada es igual a 0.15.

a. Halle la probabilidad que el inspector multe a lo más dos bodegas

b. Halle la probabilidad de que se multen más de tres pero menos de seis bodegas

139
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. Halle la probabilidad que ninguna bodega sea multada

Ejercicio 4. Un estudiante se presenta a un examen de selección múltiple contiene 20


preguntas cada una con 5 respuestas opcionales (de las cuales sólo una es la correcta).
El estudiante está adivinando al momento de responder cada pregunta. Si para aprobar
el curso el estudiante debe responder correctamente más de 17 preguntas
correctamente. ¿Cuál es la probabilidad de que desapruebe el examen?

8.2 La Distribución Hipergeométrica

Los supuestos que se consideran para una distribución hipergeométrica son:

1. La población o conjunto donde se hace el muestreo tiene N elementos, individuos u


objetos (una población finita)
2. Cada elemento puede ser caracterizado como un éxito (E) o fracaso (F), y hay A
éxitos en la población entonces son (N-A) fracasos.
3. Se saca una muestra, sin reemplazo, de n elementos de tal forma que sea
igualmente probable obtener cada subconjunto de tamaño n.

La Función de Probabilidad Hipergeométrica


La v.a.d. hipergeométrica X está definida como el número de éxitos en la muestra de
tamaño n.
Notación: X ~ Hiper  N , n, A
Si X ~ Hiper  N , n, A entonces su distribución de probabilidad es:

 A  N  A
   

f x   P X  x      
x n x
para x entero t.q máx0, n  A  N   x  min n, A
N
 
n 

La Media y la Variancia de X
A A N n
  EX   n ,  2  Var  X   n 1   
A
Si X ~ Hiper  N , n, A entonces: 
N N  N   N 1 
140
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 6
Un embarque de sustancias químicas llega en 15 contenedores, 2 de los cuales no
cumplen con los requerimientos de pureza. Se eligen 3 contenedores al azar, sin
reemplazo, para hacer una inspección de la pureza del producto. Calcule la probabilidad
de que al menos uno de los contenedores que no cumplen los requerimientos esté en la
muestra.

La v.a.d. hipergeométrica X se define como el número de contenedores que no cumplen


los requisitos, entonces X ~ Hiper  N , n, A ~ Hiper 15,3, 2  por lo tanto:
 2   13 
   
 x   3  x 
f  x   P X  x   , máx0, 3  15  2  x  min 3, 2 o x  0, 1, 2
15 
 
3 
 2  13   2  13 
       
1 2 2 1
P X  1  P X  1  P X  2            0.3714
15  15 
   
3 3

Ejemplo 7
Una estación experimental se compone de 4 ingenieros agrónomos y 9 técnicos
agrícolas. Si se elige al azar y sin reemplazo a 3 individuos para asignarlos a un trabajo
de campo, ¿cuál es la probabilidad que el grupo asignado al trabajo de campo incluya al
menos 2 ingenieros agrónomos?

Sea la v.a. x: Número de ingenieros agrónomos incluidos en el trabajo de campo.

x ~ H 13,3, 4  N  13 , n  3 , A  4 , x=0,1,2,3
13  4  4  13  4  4 
     
 3  2  2   3  3  3 
px  2  px  2  px  3    0.189  0.014  0.203
13  13 
   
3 3

Ejemplo 8
Un determinado antibiótico es empacado en cajas de 20 botellas. Suponga que una
caja, la cual es enviada a una farmacia hay 5 botellas mal envasadas. El dueño de la
farmacia sospecha que la cantidad de antibiótico en algunos de frascos es insuficiente
por lo selecciona al azar y sin reemplazo una muestra de tres frascos y decide que si
encuentra la mitad o más de frascos mal envasados en esa muestra cambiará de
distribuidor. ¿Cuál es la probabilidad de que el dueño de la farmacia no cambie de
distribuidor?

Solución.-
N  20 n  3 A=5 N-A = 15 x  0,1,2,3
 5 15   5 15 
      
 0  3  1  2  =0.859
P( x  2)  P( x  0)  P( x  1) 
 20 
 
3 

141
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 5. Un lote contiene 15 semillas de cierto cultivo, de los cuales 8 están


dañadas. Si del lote se toma una muestra aleatoria sin reemplazo de 5 semillas.

a. Defina la variable aleatoria y su distribución de probabilidades

a.

b. ¿Cuál es la probabilidad de que en la muestra haya tres semillas dañadas?


b.

c. ¿Cuál es la probabilidad de que la muestra no contengan semillas dañadas?

d. Halle la media y variancia del número de semilla dañadas

Ejercicio 6. En el almacén de una compañía hay 10 impresoras y 4 de ellas son


defectuosas. Un usuario selecciona al azar y sin reemplazo 5 de ellas para usarlas.

a. ¿Cuál es la probabilidad de que las cinco impresoras seleccionadas no tengan


defectos?

142
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. El usuario regresa las defectuosas para su reparación. Se sabe que cuesta 50 u.m.
reparar cada impresora. Calcule el promedio y la variancia del costo total de
reparación.

Ejercicio 7. Un ingeniero zootecnista sabe que en cierta región hay 8 individuos de una
especie de mamífero, de los cuales cinco son machos y el resto son hembras. Si
selecciona al azar a cuatro individuos y observa el número de machos seleccionados.

a. ¿Qué valores posibles podría tomar la variable mencionada?

b. ¿Cuál es la probabilidad que haya más de un macho?

c. ¿Cuál es la probabilidad que haya el mismo número de machos y hembras?

d. Halle la media y la varianza

143
UNA La Molina - Dpto. de Estadística e Informática Estadística General

8.3 La Distribución de Poisson

Una v.a.d. X tiene distribución Poisson con parámetro   0 si su función de


probabilidad es:
e   x
f  x   P X  x   x  0,1, 2,
x!

Propiedades de un Proceso de Poisson

El proceso de Poisson es un experimento aleatorio en el que ocurren sucesos en un


intervalo dado de longitud t.

1. Los sucesos son de la misma clase u homogéneos.


2. Los sucesos en un intervalo son independientes de los sucesos en otros
intervalos no superpuestos.
3. El promedio de sucesos por unidad de intervalo (t = 1), es conocido e igual a v.

Como ejemplos de variables aleatorias Poisson, se tienen las siguientes:

a. El número de accidentes fatales por semana en una ciudad.


b. El número de fallas que hay en cada 2.5 m 2 de tela.
c. El número de renacuajos por cada 4 litros de agua, en cierto estanque.

Función de Probabilidad para un Proceso de Poisson

La v.a.d. X definida como el número de sucesos que ocurren en intervalos de tamaño t.


e v t v t 
x
f  x   P X  x   x  0,1, 2,
x!
donde:v = promedio de sucesos por unidad de intervalo.
t = tamaño del intervalo (ejemplo: t = 2.3, t = 5.8 etc.).
vt = promedio de sucesos por intervalo de tamaño t

Notación: X ~ Pois vt


e  x
También se puede expresar: f  x   P X  x   x  0,1, 2,
x!
Donde   vt, X ~ Pois  

La Media y la Variancia de X

Si X ~ Pois   entonces:   E X    y  2  Var  X    con   vt


Ejemplo 9
Los mensajes que llegan a una computadora, utilizada como servidor, lo hacen de
acuerdo con una distribución Poisson con una tasa promedio de 10 mensajes por hora.

a. Calcule la probabilidad de que lleguen 7 mensajes en 2 horas.

Sea la v.a Y = El número de mensajes que llegan al servidor en 2 horas.(t = 2)


Unidad de intervalo = 1 hora
v=promedio de sucesos por unidad de intervalo = 10

t=tamaño del intervalo = 2


vt = promedio de sucesos por intervalo de tamaño t = 10x2

144
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Y ~ Pois (vt) ~ Pois (102) ~ Pois (20) , entonces:

e 20 20 y
f  y   P Y  y   y  0, 1, 2,
y !
e 20 207
P Y  7    0.00052
7 !

b. Encuentre el intervalo de tiempo necesario para que la probabilidad de que no


lleguen mensajes, durante ese lapso, sea 0.9.

Sea la v.a Z = El número de mensajes que llegan al servidor en k horas.(t = k)

Z ~ Pois (vt) ~ Pois (10k) ~ Pois (10k) , entonces:

e 10 k 10k 
z

f  z  PZ  z  z  0, 1, 2,
z !
10k 
0
e 10 k
P  Z  0   e10 k  0.9  k  0.0105 horas
0 !
Nota: La ecuación anterior se resolvió tomando logaritmos.

Ejemplo 10
Se cree que el número promedio de individuos por cada 2 km 2 de cierta especie de
mamífero que habita en las alturas de cierta región es de 1.2.

a. En una zona de 2.8 km2, ¿ cuántos individuos esperaríamos en promedio


encontrar?.

Sea la v.a. X=Número de individuos en 2 km2


El número de individuos que habitan en promedio será:   2.8(1.2) / 2  1.68

b. Si se observa un área de 3 km2 en dicha región, ¿cuál es la probabilidad que se


encuentren más de 3 individuos de esta especie?

Sea la v.a. X: Número de individuos en 3km21


  3(1.2) / 2  1.8
3
e1.8 (1.8) x
p( x  3)  1  p( x  3)  1    1  0.8912  0.1087
x 0 x!

c. Si se selecciona dos áreas independientemente de 3 km2 cada una. ¿Cuál es la


probabilidad que en cada una de estas áreas haya más de 2 individuos?

Probabilidad que haya en un área de 3 km2 más de 2 individuos:


2
e1.8 (1.8) x
p( x  2)  1  p( x  2)  1    0.269378
x 0 x!
Probabilidad que haya en un área de 3km2 más de dos individuos.

Y: número de áreas con más de dos individuos. Y: 0, 1, 2.


p( y  0)  (1  0.2694)2  0.5338

145
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 8.
Se sabe que el número de encuestas digitadas es una variable aleatoria que sigue un
proceso de Poisson con una media de 6 encuestas digitadas por hora.

a. Defina la variable aleatoria y su distribución de probabilidad

b. ¿Cuál es la probabilidad que se digite a 4 encuesta en 25 minutos?

c. ¿Cuál es la probabilidad que se digite al menos 2 encuestas en 80 minutos?.

d. ¿Cuál es la probabilidad que se digite exactamente 3 en media hora?

e. ¿Cuál es la probabilidad que se digite al menos 2, si se sabe que ya se digitaron


menos de 5 encuestas en 45 minutos?.

146
UNA La Molina - Dpto. de Estadística e Informática Estadística General

f. Halle el coeficiente de variabilidad del número de encuestas digitadas por hora.

Ejercicio 9. El número de barcos que llegan a un puerto cada semana es una variable
aleatoria que tiene distribución de Poisson con media igual a 9 barcos.

a. ¿Cuál es la probabilidad que en una semana lleguen exactamente 5 barcos?

b. ¿Cuál es la probabilidad de que en tres días lleguen a lo más 2 barcos?

c. Un aduanero sabe que el costo de mantenimiento del puerto por semana está en
función del número de barcos que arriban, si no llegan barcos el costo es de 2 mil
soles si llega un barco el costo es de 3 mil soles y si llegan dos o más barcos el
costo es de 5 mil soles. Halle la distribución del costo y el costo esperado por
mantenimiento del puerto por semana.

147
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 5

1. El siguiente gráfico muestra la distribución de probabilidades de la variable aleatoria


X, definida como el número de reclamos de los clientes de una compañía de
seguros.

Distribución del número de reclamos

f(x) 0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
0 2 4 6 8 10
Número de reclamos

a) Halle la probabilidad que la compañía de seguros tenga al menos 6 reclamos.

b) Si la empresa estima que por cada reclamo el tiempo perdido es de 10 minutos.


Calcule el coeficiente de variación del tiempo perdido por los reclamos.

148
UNA La Molina - Dpto. de Estadística e Informática Estadística General

2. En el día de estreno de la película Star War, se formaron grandes colas para sacar
una entrada. Se sabe que el tiempo (en minutos) que demoró un espectador en
comprar una entrada de la película es una variable aleatoria que tiene la siguiente
función de probabilidad.

1
 x, 8  x  12
f ( x)   40

0 otro caso

a. ¿Cuál es la probabilidad de que un espectador demore un tiempo menor a 10


minutos en comprar una entrada a la película de estreno?

b. Halle el tiempo esperado y su coeficiente de variación

c. Si se extrae una muestra de 6 espectadores, halle la probabilidad que dos hayan


demorado más de 10 minutos en comprar una entrada para la película de
estreno.

149
UNA La Molina - Dpto. de Estadística e Informática Estadística General

3. La Oficina de Fiscalización de una municipalidad ha iniciado una campaña de las


normas de seguridad de los locales que realizarán la Fiesta de Fin de Año. Con esta
finalidad se selecciona una muestra con reemplazo de 10 locales del distrito.
Sabiendo que en campañas pasadas que 24% de los locales no cumplen con las
normas de seguridad.

a. Defina la variable aleatoria en estudio y su distribución de probabilidad.

b. Halle la probabilidad que al menos dos locales no cumplan con las normas de
seguridad.

c. Halle la probabilidad de que más de tres pero menos de siete locales no cumplan
con las normas de seguridad.

d. Halle la probabilidad que a lo más 8 de los locales cumplan con las normas de
seguridad.

e. ¿Cuántos locales se esperan que cumplan con las normas de seguridad?.

150
UNA La Molina - Dpto. de Estadística e Informática Estadística General

4. En la oficina de recursos hídricos de una entidad estatal, existen 6 ingenieros


agrícolas y 4 ingenieros civiles. Se sabe que la oficina debe enviar a 5 ingenieros
para un curso de capacitación en Manejo del Agua.

a. Defina la variable aleatoria en estudio y su distribución de probabilidad, para los


ingenieros agrícolas.

b. ¿Cuál es la probabilidad que asista al curso al menos dos ingenieros agrícolas?.

c. ¿Cuál es la probabilidad que asista ningún ingeniero agrícola?

d. ¿Cuál es la probabilidad que asistan al curso tres ingenieros civiles?

e. Si el costo por persona para asistir al curso es $350 más $50 por movilidad.
¿Cuál es el costo esperado que pagará la entidad estatal para que asistan al
curso los ingenieros agrícolas?.

151
UNA La Molina - Dpto. de Estadística e Informática Estadística General

5. Una empresa que ofrece los servicios de la tecnología de Computación en la Nube


(Cloud Computing), desea analizar la capacidad de sus servidores con la finalidad
de ampliar los servicios a pequeñas empresas del interior del país. Si se sabe que el
número de mensajes que llegan a su servidor central, lo hacen de acuerdo con una
distribución de Poisson con una tasa promedio de 1.5 mensajes por minuto.

a. Calcule la probabilidad de que llegue al menos dos mensaje en media hora.

b. Calcule la probabilidad de que llegue como máximo tres mensaje en una hora.

c. Si se sabe que ya llegaron al menos tres mensajes, calcule la probabilidad que


lleguen a lo más seis mensajes en 10 minutos

152
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. Halle la probabilidad de que exactamente 9 de 10 tubos de vacuna duren como


mínimo 1000 horas. La probabilidad que estos tubos duren como mínimo 1000
horas es de 0.80.

2. El número de rayos gamma emitidos por segundo, por cierto sustancia radioactiva
es una variable aleatoria que tiene una distribución de Poisson con parámetro igual
a 5.6. Si un instrumento de medida se daña cuando recibe por lo menos 3
radiaciones por segundo. ¿Cuál es la probabilidad que este instrumento se dañe?

3. La posibilidad de que cada muestra de aire contenga una molécula rara es 10 %. Si


se van a tomar 18 muestras para analizar y asumiendo que las muestras son
independientes con respecto a la presencia de la molécula. Halle la probabilidad de
que exactamente 2 muestras contengan la molécula rara.

4. Juan es un dentista que atiende todos los días a sus clientes de 9:00 am a 4:00pm y
se ha registrado el número de clientes atendidos cada tres días, en una muestra de
tamaño 5 obteniéndose: 18, 21, 19, 20 y 17. Se sabe que el número de clientes que
van a consultar sigue una distribución de Poisson.

a. Si se observa 5 días de atención. ¿Cuál es la probabilidad de que sólo hayan ido


tres personas a consultar al dentista?
b. Encuentre el intervalo de tiempo necesario para que la probabilidad de que no
lleguen clientes sea 0.08.

5. En una población de drosóphila, que ataca a cierta variedad de fruta, se sabe que el
25% ha desarrollado mutación en las alas. Si se escogen aleatoriamente 6 moscas
de esta población:
a. ¿Cuál es la probabilidad de que 2 de estas moscas presenten mutación de alas?
b. ¿Cuál es la probabilidad que más de tres presenten mutación de alas?
c. ¿Cuál es la probabilidad que a lo más una mosca presente mutación de alas?
d. Si se sabe que más de una presenta mutación de alas, ¿Cuál es la probabilidad
que como máximo 4 presenten mutación de alas?

6. La probabilidad que la llanta trasera derecha de un auto tipo “Tico” reviente al


entrar a una curva es de 0.05. Encontrar la probabilidad que de 16 autos tipo “Tico”
que pasan por la curva:
a. Se revienten la llanta trasera derecha de a lo más 3 autos
b. Se revienten la llanta trasera derecha de dos o más autos.

7. En una pecera se encuentra 20 pececillos ornamentales, de los cuales cinco son de


color anaranjado y el resto no. El dueño de esta pecera ha decidido regalar la
pecera a su mejor amigo si al seleccionar una muestra al azar sin reemplazo de tres
pececillos la mitad o menos son de color anaranjado. ¿Cuál es la probabilidad que el
dueño de la pecera regale ésta a su mejor amigo?

8. En un estudio se encontró que el número total de animales muertos cerca de una


carretera de 30 Km. fue de 18. Si el número de animales muertos cerca de la
carretera tiene distribución Poisson, calcule la probabilidad de encontrar al menos 2
animales muertos en 4.5 Km. de carretera. (Sugerencia v = 18/30 = 0.6).

9. Dos cápsulas se seleccionan sin reemplazo de un frasco que contiene tres aspirinas,
dos sedantes y cuatro cápsulas laxantes. ¿Cuál es la probabilidad de no seleccionar
aspirinas?

153
UNA La Molina - Dpto. de Estadística e Informática Estadística General

10. Se sabe que en el centro de Lima ocurre en promedio un asalto cada dos minutos
entre las 6:00 p.m. y las 8:00 p.m. María sale de su trabajo a las 6:30 p.m. y debe
caminar desde la Plaza San Martín hasta la Av. Tacna con dirección hacia el
paradero. Si el trayecto le toma 4 minutos. ¿Cuál es la probabilidad que María llegue
a su paradero sin que haya ocurrido algún asalto?

11. Los pasajeros de las aerolíneas llegan al azar e independientemente a la sección de


documentación de un aeropuerto con una frecuencia promedio de llegadas de 10
pasajeros por minuto. ¿Cuál es la probabilidad de que a lo más un pasajero llegue
en 15 segundos?

12. Un determinado antibiótico se envía a las farmacias en cajas de 24 frascos. El


farmacéutico sospecha que la cantidad de antibiótico en algunos de los frascos es
insuficiente y decide analizar el contenido de 5 frascos escogidos al azar sin
reemplazo. Suponga que 14 de los 24 frascos tienen cantidad insuficiente de
antibióticos. ¿Cuál es la probabilidad de que por lo menos 4 frascos tengan cantidad
suficiente de antibióticos?

13. Según una encuesta hecha a un grupo de 10 personas, seis de ellas prefieren la
gaseosa Inca Kola y 4 de ellas Coca Cola. Si se seleccionan a 3 personas de ese
grupo. ¿Cuál es la probabilidad de que hayan 2 que les guste Inca Kola?

14. Se sabe, por experiencia, que el 42% de todas las personas que reciben un ejemplar
gratuito de una revista se suscriben a ella, calcule la probabilidad de que, a lo más 3
de las 6 personas seleccionadas al azar que reciben un ejemplar gratuito de una
revista se suscriben a la revista.

15. Si el número de solicitudes de información sobre cruceros que recibe una agencia de
viajes por día es una variable que tiene una distribución de Poisson con variancia
2.4. Halle la probabilidad de que:

a. Ningún solicitante sea recibido en medio día.


b. Al menos dos solicitantes sean recibidos en dos días.

16. Se cree que el número promedio de individuos por cada 2 km2 de cierta especie de
mamífero que habita en las alturas de cierta región es de 1.2. Además se conoce
que el número de individuos por área de esa región tiene una distribución de
Poisson.
a. En una zona de 2.8 km2, cuántos individuos esperaríamos en promedio
encontrar.
b. Si se observa un área de 3 km2 en dicha región, ¿cuál es la probabilidad que se
encuentren más de 3 individuos de esta especie?
c. Si se selecciona dos áreas independientemente de 3km 2 cada una. ¿Cuál es la
probabilidad que en cada una de estas áreas no haya más de 2 individuos?

17. La empresa FERTISA se dedica a la producción de fertilizantes y tiene ciertos


problemas en el envasado de sus productos. Un lote de 100 sacos que contienen 8
defectuosamente envasados ha sido remitido a la firma Agrouna.
a. Si dicha firma selecciona 10 sacos aleatoriamente, ¿cuál es la probabilidad de
que encuentre 3 sacos mal envasados?
b. Dicha firma aceptará el lote si al seleccionar 10 sacos no encuentra defecto en
ninguno de ellos. Si se remiten 10 lotes con 8 sacos defectuosos cada uno, ¿cuál
es la probabilidad de que a lo más 1 lote sea rechazado?

154
UNA La Molina - Dpto. de Estadística e Informática Estadística General

18. Un biólogo marino ha determinado que el número de avistamientos promedio de


mamíferos marinos por hora en alta mar es de 3.2.
a) Si decide contar el número de ejemplares durante 4 horas ¿cuál es la
probabilidad de que se observe entre 10 y 12 ejemplares (ambos números
incluidos)?
b) Si se establecen jornadas de trabajo de 6 horas, ¿cuál será el número promedio
de avistamientos por jornada?
c) Se sabe también que el 35% de los avistamientos corresponden a delfines. Si en
un día se observaron 10 animales, ¿cuál es la probabilidad de que se hayan
observado por lo menos 2 delfines?

19. Los agricultores de una región están preocupados por la calidad de sus cosechas,
ya que se ha detectado en ciertas áreas la existencia de sustancias contaminantes
en el suelo. Para analizarla, se segmenta la tierra en parcelas de 100 m 2, y se
concluye que hay una probabilidad de 0.6 de encontrar estos contaminantes en una
determinada parcela. Se pide:
a) Si un agricultor posee 15 de estas parcelas. ¿Qué probabilidad hay de que tenga
alguna parcela contaminada?
b) Una comunidad posee 100 parcelas del tipo anterior. ¿Qué probabilidad hay de
que tenga entre 10 y 15 parcelas contaminadas?
c) Si por cada parcela contaminada la cooperativa sufre una pérdida de 1000
nuevos soles, ¿cuál es la pérdida que la comunidad espera tener?.

20. El gerente de una empresa dedicada realizar copias de CD sabe por información
histórica el 93% de los CD que provee la compañía Lotus international son no
defectuosos. Si selecciona al azar 5 CD, ¿cuál es la probabilidad que 3 sean no
defectuosos, si se sabe que al menos uno es no defectuoso?

21. Por factores internacionales el precio del petróleo ha sufrido ciertas variaciones en
los últimos meses. REPLUSA ha determinado que la probabilidad de que varíe el
precio del petróleo es de 0.60. Si se va a realizar 10 compras de petróleo:
¿Cuál es la probabilidad que el número compras de petróleo donde el precio tiene
variación sea menor que su esperado?

22. Los camiones que reparten el combustible a los diferentes grifos de la capital llegan
a las instalaciones de la refinería a un promedio de tres cada 20 minutos. Si las
instalaciones sólo tienen capacidad para recibir 10 camiones por hora, ¿cuál es la
probabilidad de que una hora los camiones tengan que regresar en otro momento?

23. El siguiente gráfico muestra la distribución de probabilidades de la variable aleatoria


X, definida como el número de reclamos de los clientes de una compañía de
seguros.
Distribución del número de reclamos

f(x) 0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
0 2 4 6 8 10
Número de reclamos

155
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c) Halle la probabilidad que la compañía de seguros tenga al menos 6 reclamos.


d) Si la empresa estima que por cada reclamo el tiempo perdido es de 10 minutos.
Calcule el coeficiente de variación del tiempo perdido por los reclamos.

24. En el día de estreno de la película Star War, se formaron grandes colas para sacar
una entrada. Se sabe que el tiempo (en minutos) que demoró un espectador en
comprar una entrada de la película es una variable aleatoria que tiene la siguiente
función de probabilidad.
1
 x, 8  x  12
f ( x)   40

0 otro caso
a) ¿Cuál es la probabilidad de que un espectador demore un tiempo menor a
10 minutos en comprar una entrada a la película de estreno?
b) Halle el tiempo esperado y su coeficiente de variación
c) Si se extrae una muestra de 6 espectadores, halle la probabilidad que dos
hayan demorado más de 10 minutos en comprar una entrada para la
película de estreno.

25. La Oficina de Fiscalización de una municipalidad ha iniciado una campaña de las


normas de seguridad de los locales que realizarán la Fiesta de Fin de Año. Con esta
finalidad se selecciona una muestra con reemplazo de 10 locales del distrito.
Sabiendo que en campañas pasadas que 24% de los locales no cumplen con las
normas de seguridad.

f. Defina la variable aleatoria en estudio y su distribución de probabilidad.


g. Halle la probabilidad que al menos dos locales no cumplan con las normas de
seguridad.
h. Halle la probabilidad de que más de tres pero menos de siete locales no cumplan
con las normas de seguridad.
i. Halle la probabilidad que a lo más 8 de los locales cumplan con las normas de
seguridad.
j. ¿Cuántos locales se esperan que cumplan con las normas de seguridad?.

26. En la oficina de recursos hídricos de una entidad estatal, existen 6 ingenieros


agrícolas y 4 ingenieros civiles. Se sabe que la oficina debe enviar a 5 ingenieros
para un curso de capacitación en Manejo del Agua.

a. Defina la variable aleatoria en estudio y su distribución de probabilidad, para los


ingenieros agrícolas.
b. ¿Cuál es la probabilidad que asista al curso al menos dos ingenieros agrícolas?.
c. ¿Cuál es la probabilidad que asista ningún ingeniero agrícola?
d. ¿Cuál es la probabilidad que asistan al curso tres ingenieros civiles?
e. Si el costo por persona para asistir al curso es $350 más $50 por movilidad.
¿Cuál es el costo esperado que pagará la entidad estatal para que asistan al
curso los ingenieros agrícolas?.

27. Una empresa que ofrece los servicios de la tecnología de Computación en la Nube
(Cloud Computing), desea analizar la capacidad de sus servidores con la finalidad
de ampliar los servicios a pequeñas empresas del interior del país. Si se sabe que el
número de mensajes que llegan a su servidor central, lo hacen de acuerdo con una
distribución de Poisson con una tasa promedio de 1.5 mensajes por minuto.
a. Calcule la probabilidad de que llegue al menos dos mensaje en media hora.
b. Calcule la probabilidad de que llegue como máximo tres mensaje en una hora.
c. Si se sabe que ya llegaron al menos tres mensajes, calcule la probabilidad que
lleguen a lo más seis mensajes en 10 minutos

156
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Los parámetros de la distribución Binomial son _______________________, de la


distribución Hipergeométrica son _________________________ y la distribución
Poisson son ________________________

2. La distribución Binomial está asociada al muestreo __________________________


mientras la distribución Hipergeométrica al muestreo _______________________ .

3. Si X  Poisson(4) e Y  Bin(10,0.35), entonces el coeficiente de variabilidad de X e Y


son ______________________________________ respectivamente.

4. Sea la variable aleatoria: X=Número de autos que vende diariamente una


distribuidora, con una media igual a 8.5 y una variancia de 6.25, sabiendo que la
ganancia (en $) de la distribuidora se puede definir por: G=550 X – 200, entonces
la desviación estándar de la ganancia será ______________________________.

5. Si en una poza de crianza hay 200 truchas, de las cuales el 45% son hembras. Si se
toma una muestra aleatoria con reemplazo de 20 truchas, la variable aleatoria
número de truchas hembras tiene una distribución _________________________.

6. Sea la variable aleatoria H~Hip(N=18,n=12,A=8) entonces el rango de H es el


conjunto ________________________.

7. Si la variable aleatoria X=Número de llamadas que a una central telefónica en una


hora tiene una distribución Poisson y P(X=2)=2/3P(X=1), entonces el número
esperado de llamadas que llegan en una hora es igual a ______________________

8. El rango de una variable aleatoria que se distribuye como una Binomial es un


conjunto _____________________, para una Hipergeométrica es un conjunto
_________________________ y para una Poisson ________________________.

9. En un terreno después de rociar con cierto insecticida, se determinó que el número


promedio de insectos vivos es de 4.5 por cada 2 mt2. Asumiendo que el número de
insectos vivos tiene distribución Poisson, la probabilidad de que en 1.5 mt2 de
terreno se encuentren 5 insectos vivos es ________________________________.

10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F


a. En un experimento binomial, la probabilidad de éxito de un intento a
otro puede variar.
b. Si la variable aleatoria X se distribuye como una Binomial con
P(Éxito)=0.5, entonces la probabilidad de k éxitos es igual a la
probabilidad de k fracasos.
c. Si X es una variable aleatoria que se distribuye como una
Hipergeométrica, entonces el número de éxitos nunca puede ser mayor
al de fracasos.
d. Para una variable aleatoria que se distribuye como una Poisson, la
media y desviación estándar son iguales.
e. El rango de una variable aleatoria que se distribuye como una Poisson
es un conjunto finito.

157
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO IX

DISTRIBUCIONES CONTINUAS

Se estudiarán algunas variables aleatorias continuas particulares cuya distribución de


probabilidades se conoce. También se conocerán las principales distribuciones continuas
y las distribuciones muestrales asociadas a ellas, que se utilizarán posteriormente en
inferencia estadística (intervalos de confianza y para hacer pruebas de hipótesis).

Objetivo. Al finalizar este capítulo el lector conocerá los conceptos y aplicaciones de las
principales distribuciones continuas.

9.1 Distribución Exponencial

La variable aleatoria continua X tiene distribución exponencial con parámetro β con


media igual a E(X)= β y variancia V(X) = β2, si su función de densidad es:

 1 x / 
 e para x  0;   0
f ( x)   
0
 para cualquier otro caso

Su notación: X ~ E(β)

Gráficamente se representa:

Función acumulada (calcular la probabilidad):

1  e x /  para x  0;   0
F ( x)  P( X  x)   <
0 para x < 0

P( X < k )  p  k    Ln(1  p)


Para hallar percentiles: 
P( X > k )  p  k    Ln( p)

158
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 1
El tiempo de demora en entregar una pizza tiene distribución exponencial con media
igual a 25 minutos. Si la pizzería ofrece su producto con la promoción “si recibe su pizza
después de 30 minutos usted no paga nada”. Calcule:

a) La probabilidad de que una pizza sea entregada de manera gratuita a un cliente.


b) Si se entregan 12 pizzas, ¿cuál es la probabilidad de que 3 sean gratuitas?
c) ¿Cuál debe será el tiempo como máximo, para considerar un pedido de pizza dentro
del 25% de menor tiempo?

Solución:
a) Sea X: tiempo de demora en entregar una pizza
X~ E(25)
 30  30
P(pizza gratis) = P(X>30) = 1- P(X≤30) = 1  (1  e 25
)e 25
 0.3012

b) Y= Número de pizzas gratuitas entregadas de un total de 12


Y~ B(12,p)
p= P(pizza gratis) = 0.3012
P(Y=3) = 0.2389

c) Se tiene que: P( X  k )  0.25  k  25xLn(1  0.25)  7.19 min utos


Ejercicio 1. El tiempo para un proceso de congelamiento de hongos comestibles tiene
una distribución exponencial con promedio de 4.5 minutos.
a. ¿Cuál es la probabilidad que un proceso de congelamiento dure a lo más 5 minutos?

b. Se sabe que el proceso de congelamiento no debe durar más de 6 minutos, de lo


contrario el hongo puede malograse. ¿Cuál es la probabilidad que el hongo se
malogre?

159
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. ¿Cuál debe ser el tiempo como mínimo para ser considerado un proceso de
congelamiento, dentro del 20% de mayores tiempos?

d. ¿Cuál es la desviación estándar del tiempo de congelamiento?

9.2 Distribución Normal

La Distribución Normal fue hallada por primera vez en 1733, por A. De Moivre. Pero el
descubrimiento de De Moivre al parecer pasó inadvertido y fue “redescubierta” por C.F
Gauss en 1809 y P.S Laplace en 1780 hizo trabajos preliminares que profundizó en
1812.

En Estadística una buena cantidad de variables continuas (peso, longitud, ingresos,


temperatura etc.) se consideran que tienen Distribución Normal (se dice que es lo
normal que tenga esa distribución).

La variable aleatoria continua X tiene distribución normal con media  y variancia 2 si


su función de probabilidad es:

2
1  x 
1   
f  x  e 2  
,   x         > 0
2 
Notación: X  N( , 2)

160
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Características de la distribución normal

1. Tiene forma acampanada.


2. Es simétrica respecto a la recta X = 
3. Es asintótica respecto al eje X

En el gráfico anterior se aprecia dos distribuciones normales con igual promedio pero
diferente desviación estándar (a menor desviación estándar los datos están más cerca
de la media)

9.3 Distribución Normal Estándar

Si X  N( , 2), entonces la v.a.c. Z = (X - ) /  se dice tiene distribución normal


estándar; su media es 0, su variancia 1 y su función de probabilidad es:

1  12 z2
f  z  e ,   z  
2

Prueba

 X    X   EX    
E Z   E    E       0
         
 X    X   Var  X  
2
Var  Z   Var    Var      1
      2 2

Esta prueba es incompleta porque sólo demuestra que la media y la variancia de Z son
0 y 1 respectivamente pero no demuestra que Z tiene distribución normal (esto es tema
de un libro de Estadística Matemática).

161
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Uso de la tabla de la distribución Normal Estándar

Ejemplo 2
La estatura de los estudiantes universitarios de cierto país está normalmente distribuida
con una media de 167.85 cm y desviación estándar 10.37 cm.

a. Si un estudiante es seleccionado al azar ¿Cuál es la probabilidad de que mida menos


de 179 cm?

Sea la v.a.c. X = Estatura de los estudiantes universitarios de ese país (cm).


X  N( , 2)  N(167.85, 10.372)
 X   179  167.85 
P  X  179   P     P  Z  1.07522   P( Z  1.08)  0.8599
  10.37 
Notación: Z 0.8599  1.08
Se puede afirmar que el percentil 85.99 de las estaturas es igual a 179 cm y que el
85.99% de los estudiantes mide menos de 179 cm.

b. Halle la probabilidad de que la estatura de un estudiante que va a ser escogido al


azar mida por lo menos 152 cm.

 X   152  167.85 
P  X  152   P     P  Z  1.53  1  P  Z  1.53  1  0.0630  0.9370
  10.37 

c. Si se está buscando estudiantes universitarios que midan entre 165 y 195 cm para
un casting de TV ¿Qué porcentaje de estudiantes cumplen con esa condición?

P 165  X  195  P  0.28  Z  2.62   P  Z  2.62   P  Z  0.28


P 165  X  195  0.9956  0.3897  0.6059

162
UNA La Molina - Dpto. de Estadística e Informática Estadística General

d. Si se eligen independientemente 9 estudiantes. Encuentre la probabilidad de que


siete de ellos midan menos de 179 cm.

Exito  E   X  179 , P  E     P  X  179  0.8599


Sea la v.a.d. Y = Número de estudiantes con X  179

Y Binomial  n,   Binomial  9,0.8599 


9
P Y  7      0.8599   0.1401  0.2457
7 2

7

e. ¿Cuál es la altura mínima que debe tener un bus de transporte para que el 97.06%
de los estudiantes viaje de pie sin dificultad?

Según el problema si k es esa altura, entonces:


 X   k  167.85   k  167.85 
P  X  k   0.9706  P     PZ  
  10.37   10.37 
k  167.85
Z  0.9706   1.89  k  187.4493 cm.
10.37

Ejercicio 2. El tiempo que se demora en entregar una pizza tiene una distribución
normal con media 25 minutos y una desviación estándar 4.5 minutos. Si la pizzería
ofrece su producto con la promoción “si recibe su pizza después de 30 minutos usted no
paga nada”.

a. ¿Qué porcentaje de pizzas se entregan de manera gratuita a un cliente.

b. ¿Cuál será el tiempo como mínimo, para considerar un pedido de pizza dentro del
25% de mayor tiempo?

c. Halle el percentil 65.

163
UNA La Molina - Dpto. de Estadística e Informática Estadística General

d. Si se eligen 8 pedidos de pizzas al azar ¿cuál es la probabilidad que 3 de ellos


hayan sido entregado en forma gratuita?.

Ejercicio 3. El peso de los huevos de gallina producidos por cierta granja sigue una
distribución normal de media 65 g y desviación estándar 6 g. Si se selecciona al azar un
huevo:

a. Halle el porcentaje de huevos cuyo peso se al menos de 61 g

b. Halle la probabilidad que el peso de los huevos sea mayor a 60 pero menos a 74 g.

c. Si los huevos se clasifican según peso en tres categorías: pequeños, medianos y


grandes. Considerando que los pequeños corresponde al 15% de menores peso y
los grandes al 25% de mayores peso. Halle los pesos que marcan los límites de
cada categoría.

164
UNA La Molina - Dpto. de Estadística e Informática Estadística General

9.4 Distribuciones muestrales asociadas a la Distribución Normal

Definición de Estadístico

Un estadístico es cualquier cantidad cuyo valor se puede calcular a partir de datos de


una muestra. Por lo tanto, un Estadístico es una variable aleatoria puesto que su valor
varía de muestra en muestra, se denotada (casi siempre) por una letra mayúscula; una
minúscula se emplea para representar el valor calculado u observado del Estadístico.

Ejemplo 3
La media muestral X , es un estadístico (variable aleatoria) y x , es el valor calculado
del estadístico. La variancia muestral S2, es un estadístico (variable aleatoria) , y s 2 es
el valor calculado del estadístico. La proporción muestral p, es un estadístico (variable
aleatoria).

Definición de Muestra Aleatoria


Una muestra aleatoria es un subconjunto de la población obtenida al azar.

Distribución de la Media Muestral ( X )

Sea X1 , , X n una muestra de una distribución con media  y desviación estándar 


.Entonces:

Si el muestreo es con reemplazo de una población finita o con o sin reemplazo de una
población infinita:

En este caso la muestra es aleatoria y se cumplen las siguientes igualdades:


 
a. E X   X  

2 
b.  
Var X   X2 
n
y X 
n

 El caso de una población con distribución normal

Si X1 , , X n es una muestra aleatoria de una distribución normal con media  y


desviación estándar  . Entonces, para cualquier n, X está normalmente distribuida
2
con media  y variancia
n
 El caso de una población con distribución no normal

Se aplica El teorema del límite central. Este teorema fundamental de la Estadística


fue enunciado por primera vez por P.S Laplace en 1812 luego en 1901 A. Liapounoff
hizo una demostración rigurosa en condiciones bastante generales.

Si X1 , , X n es una muestra aleatoria de una distribución con media  y desviación


estándar . Entonces, para n suficientemente grande, X está distribuida
 2

aproximadamente en forma normal con media  y variancia .


n

165
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 4
El tiempo que demora una rata de cierta subespecie seleccionada al azar, para que se
duerma después de aplicársele un somnífero experimental, es una variable aleatoria
distribuida con   1.5 min y   0.35 min. Suponga que se seleccionan n ratas y

denote por X1 , , X n sus tiempos hasta dormirse.

a. Si el tiempo que demora una rata tiene distribución normal y X1 , , X 5 es una


muestra aleatoria de tamaño 5 de esa población. Calcule la probabilidad de que la
media de la muestra sea a lo más 2 min.

Solución:

 
E X   X    1.5

 0.35
2
2 
 
Var X   X2 
n

5
 0.0245 y X 
n
 0.1565

 X   X 2  1.5 

P X  2  P
 

0.1565
  P  Z  3.19   0.9993
 X 
b. Si el tiempo que demora una rata tiene distribución desconocida y X1 , , X 40 es una
muestra aleatoria de tamaño 40 de esa población. Calcule la probabilidad
aproximada de que el tiempo de demora promedio esté entre 1.35 y 1.60 min.

Solución:
Por el teorema del límite central el tiempo promedio de la muestra tiene,
aproximadamente, distribución normal con
 0.35
2
2
 
E X   X  1.5  
Var X    2
X
n

40
 0.0030625 .

 1.35  1.5 X  X 1.60  1.5 


P 1.35  T  1.60   P      P  2.71  Z  1.81 
 0.0030625  0.0030625
 X 

 P  Z  1.81  P  Z  2.71  0.9649  0.0034  0.9615

Ejercicio 4. Sea la variable aleatoria X la cantidad de radiación que puede ser


absorbida por un individuo antes que le sobrevenga la muerte. Suponga que X es
normal con media de 500 roentgen y una desviación estándar de 150 roentgen.

a. ¿Qué porcentaje de individuos podrán absorber entre 350 y 430 roentgen de


radiación antes que le sobrevenga la muerte?

166
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Si se extrae una muestra de 20 individuos, ¿cuál es la probabilidad que la cantidad


media de radiación absorbida por un individuo antes de morir se encuentre entre 450
y 550 roentgen?

Ejercicio 5. Se sabe que en una empresa de taxis, la variable aleatoria X=Número de


servicios no atendidos por día tiene la siguiente distribución de probabilidad:

X 1 2 3 5 6
P(X=x) 0.31 0.19 0.25 0.125 0.125

Si se toma una muestra de tamaño 36.

a. Halle la probabilidad que el promedio muestral del número de servicios no atendidos


sea menor a 2.5

b. Si se sabe que el promedio muestral del número de servicio no atendidos fue menor
a 3.5, ¿cuál es la probabilidad que el promedio muestral sea mayor o igual a 1.5?

167
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Distribución de una proporción por muestreo (p)

Para n grande y utilizando el teorema del límite central, se puede asegurar que la
proporción muestral p, tiene una distribución aproximadamente normal con media:
 2  (1   ) p 
= y variancia:  . Se estandarizar como: Z  .
n n  (1   )
n
A continuación se presentan los casos de la distribución p con muestras aleatorias y con
muestras aleatorias simples.

Uso del teorema del límite central

Si n es suficientemente grande (n  30), por el teorema del límite central se puede


afirmar que:
 p  k    k  
P p  k  P    P  Z  
  p p
 p   
Ejemplo 5
En un proceso de producción el porcentaje de unidades defectuosas producidas es 3%.
Para controlar el proceso, se revisan periódicamente los artículos producidos.
Si el proceso de producción se para al encontrar al menos 5% de unidades defectuosas
producidas al revisar una muestra aleatoria de 200 artículos cada vez. Halle la
probabilidad aproximada de que el proceso continúe.

Solución
La proporción muestral tiene una distribución aproximadamente normal. Esto se puede
afirmar por el Teorema del Límite Central (n grande).
  1    
p Normal     ,  2  
Aprox.  n 
 
 
 p  0.05  0.03 
P  p  0.05  P   P  Z  1.65   0.9505
  1    0.0121 
 
 n 

Ejemplo 6
El contenido de sólidos solubles (en grados Brix °B) en muestras de chirimoya tiene
distribución normal siendo su esperanza matemática es 7.78 °B y su desviación
estándar 2.54 °B. Un especialista selecciona una muestra aleatoria de 80 muestras de
chirimoya. Calcule la probabilidad de que la proporción muestral de esas muestras de
chirimoya con un contenido de sólidos solubles menor de 9.88 °B sea menor de 0.72.

Solución
Sea X el contenido de sustancias solubles en °B.
X Normal    7.78,  2  2.542 
La probabilidad de que una muestra de chirimoya tenga un contenido menor de 9.88 °B
es:
 X   9.88  7.78 
  P  X  9.88  P     P  Z  0.83  0.7967
  2.54 

168
UNA La Molina - Dpto. de Estadística e Informática Estadística General

La proporción muestral tiene una distribución aproximadamente normal. Esto se puede


afirmar por el Teorema del Límite Central (n grande).
  1    
p Normal     ,  2  
Aprox.  n 
 
 
p  0.72  0.7967 
P  p  0.72   P    P  Z  1.71  0.0436
  1    0.7967  0.2033 
 
 n 80 

Ejercicio 6. De una empresa se escoge una muestra aleatoria de 300 empleados para
una encuesta sobre condiciones laborales. Halle la probabilidad aproximada de que la
proporción muestral a favor de las condiciones laborales esté comprendido en el
intervalo 0.76 y 0.84, si se estima en 80% del total de empleados el porcentaje a favor
de las condiciones laborales.

Ejercicio 7. El diez por ciento de las personas de cierta comunidad tiene sangre tipo B.
Si se selecciona una muestra aleatoria de 900 personas de esa comunidad. ¿Cuál es la
probabilidad de que la proporción muestral de personas con sangre tipo B?

a) Sea al menos 7.2%

b) Sea a lo más 10.5%

169
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Distribución de la diferencia de promedios muestrales X 1  X2 


Si de dos poblaciones independientes distribuidas con medias 1 ,  2 y variancias  12 ,
 22 , se extraen muestras de tamaños n1 y n2 , respectivamente; entonces, la variable
aleatoria X 1  X2  (diferencia de promedios muestrales) tendrá una distribución
normal con media y variancia:

Si las muestras son aleatorias (con o sin reemplazo) de poblaciones normales o se


cumple con el teorema del límite central con otro tipo de distribución.
2 2
 X 1X 2 
 1  2 y  2X 1  X 2  1  2
  n
1 n2

Ejemplo 7
El tiempo que lleva efectuar un procedimiento de montaje para el método 1 tiene
distribución con media 35 seg. y variancia 20 seg2 mientras que con un método 2 tiene
distribución con media 31 seg. y variancia 17 seg 2. Si se selecciona una muestra de 40
empleados entrenados con el método 1 y 50 entrenados con el método 2.

Halle la probabilidad de que el promedio muestral con el método 1 exceda al promedio


muestral con el método 2 en por lo menos 5 seg.

 2 2   20 17 
X1  X 2 N  1  2 , 1  2  N  35  31,   N  4, 0.84 
 n1 n2   40 50 
 X 1  X 2  X X 54 

P X1  X 2  5  P
 
1 2

0.84
  P  Z  1.09   0.1379

 X1X 2 

Ejercicio 8. La estatura promedio de un soldado del ejército del país A es de 172.5 cm


con una desviación estándar de 5 cm. En tanto que para un soldado del ejército del país
B es de 167.5 cm y 2.5 cm respectivamente. Si se selecciona una muestra aleatoria de
90 soldados en cada uno de los ejércitos, ¿cuál es la probabilidad de que la estatura
promedio de la muestra del ejercito B sea inferior al del ejército A en 4.5 cm o menos?

170
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 9. En una inspección de control de calidad de focos se encontraron los


siguientes resultados:
1. En la empresa A, se obtuvo un promedio de vida útil de 30 meses con una
desviación estándar de 4 meses.
2. En la empresa B, se obtuvo un promedio de vida útil de 40 meses con una
desviación estándar de 6 meses.

Al seleccionar una muestra de 100 focos de A y 80 de B, ¿Cuál es la probabilidad que


el promedio de vida útil de los focos fabricados por B supere en más de 8 meses del
promedio de vida útil de los focos fabricados por A?

Distribución de la diferencia de proporciones muestrales ( p1  p2 )

Si p1 y p2 son las proporciones muestrales de dos poblaciones independientes con

proporciones poblacionales 1 y  2 , y de estas poblaciones se extraen muestras de


tamaños n1 y n2 , respectivamente, entonces, la diferencia de proporciones

muestrales p1  p2 tiene una distribución con media  p1  p2  1   2 y variancia:

 1 1   1   2 1   2 
 2p  p 
1 2

n1 n2

Uso del teorema del límite central


Si las muestras son suficientemente grandes entonces:
p1  p2 aprox 
N 1   2 ,  2p1  p2 
La forma de la variancia depende de si la muestra es aleatoria o aleatoria simple.

Ejemplo 8
Si para elaborar un artículo se usan, independientemente, las máquinas I y II, y se
sabe que la probabilidad de producir un artículo defectuoso con la máquina I es 0.15 y
0.08 con la máquina II. Si se eligen al azar 80 artículos producidos por I y 100
producidos por II, halle la probabilidad de que la proporción de defectuosos de la
muestra de I supere a la de II en más de 0.06, si las muestras son aleatorias.

171
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Solución
 0.15  0.85 0.08  0.92 

p1  p2 aprox N  1   2 ,  2p1  p2  aprox N  0.15  0.08,
 80

100 

aprox N  0.07,0.00233
 0.06  0.07 
P  p1  p2  0.06   P  Z    P  Z   0.21  0.5832
 0.04827 

Ejercicio 10. Se sabe que van a la universidad en movilidad propia el 40% de los
estudiantes de la Universidad L y el 30% de la Universidad S. Si se toman al azar
muestras de 80 y 90 estudiantes respectivamente, halle la probabilidad de que la
proporción de la muestra de la Universidad L supere a la de S en más de 9%.

Ejercicio 11. Dos máquinas A y B producen el mismo artículo. Se sabe que la


proporción de artículos defectuosos producidos por A es de 0.06 y por B es de 0.04. Si
se obtiene una muestra aleatoria de 50 artículos para cada una de las máquinas, halle
la probabilidad que la proporción de defectuosos de la muestra A sea superior a la
proporción de defectuosos de la muestra de la máquina B en más de 0.01.

172
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 6

1. BRT es una empresa dedicada al transporte público de pasajeros en la ciudad. Se


sabe que el 25% de los pasajeros toman la línea A, el 35% la línea B y el 40% la
línea C. Cada línea tiene una ruta con distintos paraderos.
El gerente de la empresa está interesado en analizar el tiempo que espera un
pasajero hasta que llegue su bus. Esta variable para un pasajero de la línea A tiene
densidad exponencial con media de 30 min, para un pasajero de la línea B una
distribución normal con media de 25 min y desviación estándar de 5 min, y para un
pasajero de la línea C una distribución normal con media de 15 min y varianza de 1
min2.

a. Calcule la probabilidad de que un pasajero que toma la línea A tenga que esperar
menos de 15 minutos.

b. Calcule la probabilidad de que un pasajero que toma la línea B tenga que esperar
más de 20 minutos.

c. Calcule la probabilidad de que un pasajero que toma la línea C tenga que esperar
entre 15 a 20 minutos.

d. ¿Cuánto tiempo de espera como mínimo debe tener un pasajero de la ruta A para
ser considerado dentro del 30% de los pasajeros que más esperan?.

173
UNA La Molina - Dpto. de Estadística e Informática Estadística General

e. Si se elige al azar un pasajero de la ciudad, calcule la probabilidad de que tenga


que esperar menos de 15 minutos.

f. Si se seleccionan al azar 10 pasajeros que toman la línea B, calcule la probabilidad


de que el tiempo promedio de espera en la muestra sea mayor a 24 minutos

g. Si se selecciona al azar 80 pasajeros que toman la línea A, calcule la probabilidad


de que el tiempo promedio de espera en la muestra sea a lo más 25 minutos

h. Si se seleccionan al azar 10 pasajeros que toman la línea B y 8 pasajeros que


toman la línea C, calcule la probabilidad de que el tiempo promedio de espera en la
muestra de la línea B supere al de C en más de 15 minutos.

174
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Suponga que otra variable en estudio es el nivel de satisfacción de los pasajeros


respecto al servicio de transporte. De un censo realizado el año pasado se obtuvo la
siguiente información:

Ruta N Número de pasajeros que se


encuentran satisfechos con el servicio
A 80 60
B 100 50
C 120 90

Si para un próximo estudio se extraen muestras aleatorias 40, 50 y 60 pasajeros para


las rutas A, B y C respectivamente. Use la información anterior para responder las
siguientes preguntas:

i. Calcule la probabilidad de que la proporción de pasajeros satisfechos de la muestra


de la ruta A sea menor a 0.7

j. Calcule la probabilidad de que la proporción de pasajeros satisfechos de la muestra


de la ruta B sea superior a la de la ruta C en menos de 5%.

175
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. El tiempo, en horas, de reparación de un automóvil es una variable aleatoria X con


distribución exponencial. En promedio se demora 4.48 horas.
a. Calcular la probabilidad de que un automóvil este más de 3 horas, si lleva al
menos media hora siendo reparado.
b. Hay un 10% de automóviles que son los que requieren de mayor tiempo para
reparación. ¿Cuántas horas se requiere como mínimo para reparar un
automóvil de este tipo?

2. Suponga que la duración en minutos de las llamadas telefónicas que llegan en forma
independiente a una central telefónica es una variable aleatoria con distribución
exponencial, con media de 2 minutos por llamada. ¿Cuál es la probabilidad que una
llamada dure entre 1 y 4 minutos?

3. El tiempo de incapacidad por enfermedad de los empleados de una compañía en un


mes, tiene distribución normal, con media 100 horas y desviación estándar de 20
horas.
a) ¿Cuál es la probabilidad de que el tiempo por incapacidad del siguiente mes se
encuentre entre 50 y 80 horas?
b) ¿Cuánto tiempo de incapacidad deberá planearse para que la probabilidad de
excederlo sea sólo 0.1?

4. Suponga que se estima que el 70% de los jóvenes de Lima y el 63% de los jóvenes
de Arequipa considera que escuchar música clásica es un buen hábito. Si se toman
muestras de tamaño 50 de jóvenes de Lima y 60 de jóvenes de Arequipa, halle la
probabilidad de que la proporción de la muestra de Lima supere a la de Arequipa en
menos de 0.05, si Las muestras son aleatorias simples (sin reemplazo), habiéndose
elegido la primera muestra de 900 jóvenes limeños y la segunda de 1400 jóvenes
arequipeños.

5. El promedio y la desviación estándar de las medidas de los diámetros interiores de


ciertos tubos de desagüe son respectivamente 34.1 cm y 1.5 cm. Si se toma una
muestra de 100 tubos, ¿Cuál es la probabilidad de que la media de esta muestra
aleatoria esté entre 34 cm. y 34.5 cm?

6. En una población, el 20% de las familias están suscritas al diario “El Comercio”,
¿cuál es la probabilidad de que al seleccionar una muestra de 225 familias, la
proporción de familias suscritas a dicho diario sea menor al 16%?

7. La presión sanguínea sistólica de los hombres de 20 a 24 años se distribuye


normalmente con media 123 y con una desviación típica de 137. Si se selecciona al
azar a uno de estos hombres, ¿cuál es la probabilidad que su presión sanguínea sea
mayor a 139.44?

8. El tiempo que necesita un alumno para terminar el examen final de Química General
se distribuye normalmente con una media de 110 minutos y una desviación
estándar de 8 minutos; mientras que el tiempo que necesita un alumno para
terminar el examen final de Física General se distribuye normalmente con una
media de 115 minutos y una variancia de 49 minutos2.
a. Si un alumno termina el examen de Física General en menos de una hora y
media se puede suponer que domina el curso. Si se selecciona un alumno al
azar, ¿cuál es la probabilidad de que domine el curso?
b. Si se seleccionan al azar 5 alumnos de Física General, ¿cuál es la probabilidad de
que al menos dos alumnos dominen el curso?

176
UNA La Molina - Dpto. de Estadística e Informática Estadística General

9. El número de clientes que llegan a una agencia bancaria cada 5 minutos tiene una
distribución Poisson con media 3.2. Se selecciona una muestra aleatoria de tamaño
40 de esta distribución. Calcule la probabilidad de que la media muestral sea mayor
que 2.8.

10. Se sabe que el 52% de adolescentes de cierto distrito fuman. Si se selecciona una
muestra aleatoria de 50 adolescentes de ese distrito, halle la probabilidad de que la
proporción muestral de fumadores sea mayor que 0.40 pero menor que 0.62

11. Una Empresa Arrocera se tienen dos máquinas agrícolas A y B; las cuales presentan
tiempos de duración que cumplen la función de cosechar arroz en forma
independiente tienen una distribución normal con un tiempo de vida medio de 12 y
15 años y con desviaciones estándar de 1.5 años y 3 años respectivamente.

a) El administrador de la empresa está dispuesto a reemplazar sólo al 3% de las


maquinas con menor tiempo de duración. ¿Cuál es la duración límite para que la
máquina A sea considerada para ser reemplazada?
b) Si se toma una muestra de 50 máquinas agrícolas para cada tipo de máquina (A
y B) ¿Cuál es la probabilidad de que la duración de la media de la muestra de la
máquina B sea como máximo 14 ó como mínimo 16 años?
c) Si se toma una muestra de 50 máquinas agrícolas para cada tipo de máquina (A
y B) ¿Cuál es la probabilidad de que la media de la muestra de la máquina A
difiera de la máquina B en más de 1 año?

12. La vida útil de una batería se distribuye como una exponencial con una media de 10
años. El fabricante ofrece una garantía de un año. Si la batería falla en ese período
se reemplaza por otra, a lo más una vez. ¿Cuál debe ser el tiempo de garantía que
el fabricante debe ofrecer para que solo se devuelva el 2% de las baterías
producidas?

13. Una máquina fabrica un determinado producto cuya longitud, en centímetros, tiene
un promedio de 6 cm. y una desviación estándar de 1.2 cm.

a) Si se toma una m.a. de tamaño 25 ¿Cuál será la probabilidad de que se obtenga


un promedio muestral de a lo más 6.25 cm?
b) Se sabe que el costo de fabricación, por unidad, está dado por C = 4.5X + 6.5,
donde C es el costo unitario y está dado en soles. Si se toma una muestra
aleatoria de tamaño 36 ¿Cuál es la probabilidad de que el costo promedio, en
esta muestra, supere los 23.5 soles?

14. Un fabricante de electrodomésticos sabe que la vida útil de éstos sigue una
distribución normal con media de 100 meses y desviación estándar de 20 meses.
Determine el tamaño mínimo muestral que garantiza, con una probabilidad de 0.98
que la vida útil media de los electrodomésticos en dicha muestra se encuentra
entre 90 y 110 meses.

15. Se sabe que la vida de bombillas eléctricas es una variable aleatoria distribuida
normalmente con media desconocida  y  = 200 horas. El precio de un lote de
1
bombillas es  dólares. Un posible comprador propone tomar una muestra
5
1
aleatoria de n bombillas y pagar al productor X dólares por el lote de bombillas.
5
¿Cuál debe ser el valor de n, para que la probabilidad de que comprador no sobre
pague ni subpague al productor con más de 20 dólares, sea 0.95?

177
UNA La Molina - Dpto. de Estadística e Informática Estadística General

16. El tiempo que tarda un proceso de ensamblaje de un artículo puede modelarse como
una variable aleatoria exponencial con una media de 5.5 minutos.
a. ¿Cuál es la probabilidad que el proceso de ensamblaje de un artículo dure entre
3.8 y 6.8 minutos?
b. ¿Cuánto tiempo como mínimo debe tener un artículo para ser considerado
dentro del 28.5% de los mayor tiempo de ensamblaje?.
c. Halle el RI.
d. Halle el medio del tiempo de ensamblaje y su coeficiente de variación.

17. La escuale de manejo “El Rápido”, estima que el número de horas de práctica
necesarias para la obtención del permiso de conducir para una persona sigue una
distribución normal con media 24 horas y desviación estándar 4 horas.
a. ¿Cuál es la probabilidad de obtener el permiso de conducir con al menos 20
horas de prácticas de manejo?
b. ¿Cuál debe ser el número de horas como máximo, para que una persona sea
considerada dentro del 22% con menos horas de prácticasde manejo?
c. Si una escuela de manejo cobra S/ 35 por hora de práctica más S/ 45 por
gastos de administrativos. Calcule el ingreso esperado por alumno que tendrá
la escuela.
d. Si se extrae una muestra aleatoria de 35 personas, ¿cuál es la probabilidad que
el número promedio de horas de manejo para obtener la licencia de conducir
sea entre 18 y 26 horas?.
e. Si se sabe que el 18.5% de las personas desaprueban en la primera vez el
examen de manejo, entonces para una muestra de 120 personas halle la
probabilidad que la proporción muestral que desaprueban el examen por
primera vez sea a lo más el 15.5%.
f. La escuela desea hacer una evaluación respecto al género. Se tiene que el
número de horas para obtener la licencia de conducir tiene una distribución
normal, con media de 22 horas y desviación estándar de 5 horas para los
hombres, mientras que para las mujeres su media es de 28 horas y desviación
estándar de 8 horas. Halle la probabilidad que el número de horas promedio
para tener una licencia de las mujeres sea mayor que el de los hombres en
más de 3 horas.

178
UNA La Molina - Dpto. de Estadística e Informática Estadística General

9.5 Distribución Ji – Cuadrado

La distribución Ji-cuadrado fue encontrada por primera vez por F.R Helmert en 1876.
Esta distribución toma el nombre de la letra griega  elevada al cuadrado. Esta letra en
castellano se llama Ji y en inglés Chi.

Una v.a X tiene distribución Ji-cuadrado con m grados de libertad si su función de


probabilidad está dada por:

 1
m
1  x
 m x2 e 2 si x 0
f x    2 2 m 2

 0 si x0

Se debe aclarar que el operador   m 2 es una integral definida.

Notación: X 2m

Características de una distribución Ji-cuadrado típica

Como se aprecia en el gráfico anterior:

1. Presenta un sesgo o asimetría positiva.


2. Es asintótica con respecto al eje horizontal en el lado positivo.
3. El rango de la variable considera sólo los valores positivos.
4. La distribución tiene menor sesgo conforme los grados de libertad son mayores
(m  30)
2m , entonces  X  m y  X  2 m .
2
5. Si X

Teorema Si Z  N(0 , 1) entonces Z2 21 .

Ejemplo 9
2
X   X  
Si X N  , 2
 , entonces Z N  0,1  Z  
2
  21
   

179
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Distribuciones muestrales asociadas a la distribución Ji-cuadrado

Sea X1 , , X n una muestra aleatoria de una distribución normal con media  y


n

 n  1 S 2 (X i  X )2
desviación estándar  , entonces la V.A.:  i 1
 2n1 .
 2
 2

Ejemplo 10
Si J 219 , determine el valor de:
a. P  J  11.651

Solución
P  J  11.651 = 0.1 Notación: 11.651  20.1,19
b. P  J  15.352 

Solución
P  J  15.352  1  P  J  15.352   1  0.3  0.7

c. P 15.352  J  30.144 

Solución
P 15.352  J  30.144  P  J  30.144  P  J  15.352  0.95  0.3  0.65

Ejemplo 11
Si L 225 , halle p1 y p2 tales que: P  p1  L  p2   0.7 y P  L  p2   0.1 .
Solución
P  L  p1   0.2  p1   20.2,25  18.940
P  L  p2   0.9  p2   20.9,25  34.382

9.6 Distribución t de Student

La distribución t fue empleada por primera vez en un problema de Estadística


importante por W.S Gosset en 1908 (él escribía bajo el seudónimo de Student).

Una v.a X tiene distribución t con m grados de libertad si su función de probabilidad es:

 m 1 
 
f  x   2  ,   x  
m 1
2
 m  x  2
m    1  
 2  2
Notación: X t m

180
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Características de la distribución t

1. Cada curva t m  tiene forma acampanada con centro en 0.

2. Cada curva t m  es más dispersa que la curva normal estándar.

3. Si X t m , entonces  X  0 y  X2  m
m2
4. Conforme aumenta m, la dispersión de la curva t m  disminuye.

5. A medida que m , la curva t m  se aproxima a la curva normal estándar.

Teorema
Z
Si las v.as Z N  0,1 y V  2m son independientes, entonces la v.a X t m .
V
m

Distribuciones muestrales asociadas a la distribución t

Sea X1 , , X n una muestra de una distribución normal con media  y desviación


X 
estándar  , entonces la v.a t n 1 , siendo:
SX

2 S2
S 
X , si el muestreo es con reemplazo (muestra aleatoria)
n
Teorema
Si de dos poblaciones normales independientes distribuidas con medias 1 ,  2 y
variancias 12   22   2 , se extraen muestras aleatorias de tamaños n1 y n2 ,

respectivamente; entonces, la variable aleatoria Y 


 X1  X 2    1  2  ,
t n1  n2  2
1 1
2
S   
p
 n1 n2 

siendo: S 2

 n1  1 S12   n2  1 S22
n1  n2  2
p

181
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 12

Si R t8 , calcule:

a. P  R  2.306 

P  R  2.306   0.025 Notación: 2.306  t0.025,8

b. P  R  2.896 
P  R  2.896  1  P  R  2.896   1  0.99  0.01

c. P  3.355  R  0.889 
P  3.355  R  0.889   P  R  0.889   P  R  3.355  0.200  0.005  0.195

d. El valor de c si P  R  c   0.3
P  R  c   0.3  c  t 0.3,8  0.546

9.7 Distribución F

Ronald A. Fisher (nació en Inglaterra el 17 de Febrero de 1890 y falleció el 29 de Julio


de 1962) fue un gran científico, matemático, estadístico, biólogo evolutivo y genetista.
Fisher aportó mucho a la estadística, siendo una de sus más importantes
contribuciones, la Inferencia Estadística creada por él en 1920 (que se estudiará de
manera introductoria en el capítulo XI de este libro). A la distribución F también se le
llama distribución F de Snedecor o distribución F de Fisher-Snedecor.

Una v.a. X tiene una distribución F con n y m grados de libertad si su función de


probabilidad es:
n
 n  m  n  2 2 1
n
   x
f  x   2  m  , x0
nm
 n   m  n x 2
      1 
 2  2  m 
Notación: X F  n, m 

182
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Características de la distribución F

1. Está definida solamente para valores positivos de la variable.


2. Tiene asimetría positiva.
3. Es asintótica respecto al eje horizontal en su parte positiva.
4. Las distribuciones F  n, m  tienden a ser simétricas cuando n y m son
suficientemente grandes (mayores que 30)

Teorema
Si U 2n y V 2m , son v.a. independientes, entonces la V.A.:
U
U m
X n  F  n, m 
V V n
m

Notación Si X F  n, m  y P  X  k     k  F ,n,m

1
F ,n,m 
Propiedad recíproca F1 ,m,n 
Distribución muestral asociada a la distribución F
Sea X1 , , X n1 una m.a. de una distribución normal con variancia  12 y Y1 , , Yn2 otra

m.a. (independiente de las Xi) de una distribución normal con variancia  22 , y

denotemos por S12 y S22 las dos variancias muestrales. Entonces la v.a:
S12  12
F  n1  1, n2  1
S22  22
Ejemplo 13

Si W F 8, 21 , halle:

a. P W  2.42 
P W  2.42  0.95  2.42  F 0.95,8,21
b. P W  3.51
P W  3.51  1  P W  3.51  1  0.99  0.01
c. P  2.42  W  3.51
P  2.42  W  3.51  P W  3.51  P W  2.42   0.99  0.95  0.04
d. El valor de k en P  k  W  2.42  =0.94
P  k  W  2.42   0.94  P W  2.42   P W  k   0.94  P W  k   0.01
0.95

1 1
 k  F 0.01,8,21    0.1873
F 0.99,21,8 5.34
Nótese que se utilizó la propiedad recíproca.

183
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. Una muestra aleatoria de 27 observaciones es tomada de una población normal con


 2  16.8 . Hallar la probabilidad de obtener una desviación estándar muestral
entre 2.9909 y 5.2045

2. Un fabricante de alambres de acero afirma que la fuerza promedio requerida para


romper los alambres que fabrica es de 500 Kg. Para verificar esta afirmación se
toma una muestra aleatoria de 25 trozos de este alambre y se somete a prueba
encontrándose una desviación estándar de 55 Kg. Suponiendo que las fuerzas de
rompimiento pueden considerarse como valores de una variable aleatoria que se
distribuye normalmente. ¿Cuál es la probabilidad de obtener un promedio de
rompimiento entre 481.179 y 518.821 Kg?

3. Si Y tiene distribución t de Student con 15 grados de libertad. Halle el valor de la


constante K tal que: P(Y  K )  P(Y  1.753)  0.95

W ~ 2(5) Z ~ t ( 20) Y ~ F(8,10)


4. Sea , , . Usando tablas estadísticas hallar las siguientes
probabilidades:

a) P(W  3)
b) P(W  11.07)
c) P( Z  0.860)
d) P( Z  1.325)

e) P(1.325  Z  1.725)
f) P(Y  3.07)
g) P(Y  5.06)
h) P(3.07  Y  5.06)

184
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Dos características de la distribución Normal son ___________________________


__________________________________________________________________
2. Dos características de la distribución t de Student son: _______________________
___________________________________________________________________
3. Dos características de la distribución Chi-cuadrado son: ______________________
___________________________________________________________________
4. Dos características de la distribución F de Fisher son: _______________________
___________________________________________________________________
5. Si la variable aleatoria X se distribuye como una exponencial, entonces la
probabilidad que X sea mayor a su media es igual a _____________________ y su
coeficiente de variación es igual a ___________________.
6. Si X tiene una media poblacional igual a 12.5 y una desviación estándar de 2.5,
entonces para un muestra n de tamaño 50, la distribución de la media según el
Teorema del Límite Central es ______________________________
7. Si la variable aleatoria X~ Bin(10,0.85), entonces para una muestra de tamaño 40
la probabilidad que la media muestral sea mayor a 6 es igual a ________________
8. Si Y ~ Hip(15,8,5), entonces para una muestra de tamaño 35 la media muestral se
aproxima a la distribución _________________ con media y variancia
__________________________.
9. La distribución normal estándar está asociada a la distribución muestral de
_________, la distribución t con la distribución muestral de _________________, la
distribución Chi-cuadrado con la distribución muestral de _____________________
y la distribución F con la distribución muestra de _________________________ .

10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F


a. La mediana en una distribución normal estándar es igual a cero
b. En la distribución t, a medida que aumenta los grados de libertad la
distribución se aproxima a una normal estándar.
c. Las variables aleatorias distribuidas como una Chi-cuadrado y F toman
sólo valores positivos.
d. Las variables aleatorias distribuidas como una Normal y Normal
estándar toman sólo valores negativos.
e. Conforme aumenta los grados de libertad de la Chi-cuadrado, la
distribución tiene mayor sesgo .

185
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO X

INFERENCIA ESTADÍSTICA

La inferencia estadística se ocupa de la estimación y prueba de hipótesis de los


parámetros de una población, en base de una muestra aleatoria extraída de dicha
población.

Objetivo. Entender el proceso de inferencia estadística para la estimación (estimación


puntual y por intervalos) y de prueba de hipótesis de los parámetros de una población.

La inferencia estadística comprende:

1. La estimación de parámetros (estimación puntual y por intervalos de confianza).


2. Las pruebas de hipótesis de parámetros.

10.1 Estimación puntual de parámetros

Sea X1 , , X n una muestra de tamaño n de una población con parámetro . Se

denomina estimador puntual de  a cualquier estadístico ˆ  h  X , , X  cuyo valor


 1 n

ˆ  h  x1 , , xn  dará una estimación puntual de . En este caso ̂ es una variable


aleatoria y ˆ es un número. Los estimadores puntuales para la media, varianza y
proporción serán:
n

X i
Para la media poblacional (): ̂  X  i 1
n
n

(X i  X )2
Para la variancia poblacional (2): ˆ 2  S 2  i 1
n 1

Número de éxitos
Para la proporción poblacional (): ˆ  p 
n
Ejemplo 1
De una población de tallas (mt) en madres adolescentes con media  y varianza  2,
se extrae una muestra aleatoria 8 madres adolescentes, cuyos valores observados son:
1.50, 1.60, 1.58, 1.45, 1.52, 1.68, 1.62, 1.55. Halle un estimador puntual para la
media, la varianza y la desviación estándar poblacionales.
8

X i
12.5
Entonces se tiene: X i 1
  1.56 mt. , será una estimación puntual de  .
8 8
8
Cálculo de la suma de cuadrados: X
i 1
i
2
 19.569
Para la varianza, el estimador puntual será:
n  n
X 
2
n

2
 X i2  i 1 i
n
X i
2
 nX
19.569  (12.5) 2 19.569  8 x1.562
S  i
 i
   0.0053
n 1 n 1 7 7

Para la desviación estándar: S  0.0053  0.073


186
UNA La Molina - Dpto. de Estadística e Informática Estadística General

10.2 Estimación de parámetros por intervalo de confianza

Sea X1 , , X n una muestra aleatoria de tamaño n de una población con parámetro  ,

cuyos valores observados o datos respectivos son x1 , , xn . Sea además, la v.a


ˆ  h X ,
 , X n  un valor estadístico, con función de probabilidad conocida, que estima
1

a . Si P  A    B  1 , donde A  h1  X1 , , X n  y B  h2  X1 , , X n  son v.a.


halladas a partir de la distribución de  ˆ  h  X , , X  , entonces se dice que el
1 n

intervalo aleatorio  A, B es el intervalo estimador del parámetro , o que    A, B 


con probabilidad 1 .

Si a  h1  x1 , , xn  y b  h2  x1 , , xn  , son los valores numéricos que resultan al


reemplazar los valores de la muestra en las v.a. A y B respectivamente, entonces, se
dice que el intervalo numérico  a, b  es el intervalo de confianza del 1    100 %
para  , o que    a, b con un nivel o grado de confianza del 1    100 %.
Interpretación

Si con los datos de una muestra aleatoria de tamaño n se construyó el intervalo


a    b con nivel de confianza, por ejemplo, 98% para el parámetro  , esto quiere
decir que existe un 98% de confianza que el intervalo  a, b contenga al parámetro  .
Intervalo de confianza para una media poblacional  con  2 desconocida

Si X1 , , X n es una muestra aleatoria de una población normal con media  y


variancia  2
desconocida. Para cualquier tamaño de muestra se tiene que la variable
X 
aleatoria la v.a. t ~ t n-1 , entonces para definir el intervalo de confianza del
S
n
1    100 % se cumple:
 
   
P  t1 ; n 1  tn 1  t1 ; n 1   P  t1 ; n 1 
X
 t1 ; n 1   1   .
 2 2   2 S 2

 n 

Entonces despejando la expresión anterior, el intervalo con un nivel de confianza del


1    100 % para la media (  ) será hallado por:

 
 s S 
 X  t 1 ;n 1    X  t 1 ;n 1 

 
2 n  
2 n

 a b 

donde a y b son valores numéricos que representan el Límite inferior y Límite


superior del intervalo.
187
UNA La Molina - Dpto. de Estadística e Informática Estadística General

s
Límite inferior: LI (  )  X  t 1
 2  n ; n 1

s
Límite superior: LS (  )  X  t 1 ;n 1
 2  n

Intervalo de confianza para una proporción

p 
Se usa la v.a. ~ N(0,1) y n>30, entonces para determinar el intervalo de
 (1   )
n
confianza del 1    100 % para la proporción se cumple:
 
   
p 
P  Z     Z  Z     P  Z    
   Z     1  
  1   1     1   (1   )  1  
  2  2
  2  2

 n 

Entonces despejando la expresión anterior, el intervalo con un nivel de confianza del


1    100 % para la proporción ( ) será hallado por:

p 1  p  p 1  p 
p  Z     p  Z  
1  n 1  n
 2  2
a b

donde a y b son valores numéricos que representan el Límite inferior y Límite


superior del intervalo.

Intervalo de confianza para la variancia

Sea X1 , , X n una muestra aleatoria de una población normal con variancia  2 ,

(n  1) S 2  (X i  X )2
desconocida. Se usa  ~  2n -1 , entonces para determinar el
2 2
intervalo de confianza del 1    100 % para la varianza se cumple:

 
P  2 2,n1   2n1   21 2,n1  1  

 2
P    2,n1 
 n  1 S 2 
  21 2,n1   1  
  2

Entonces despejando la expresión anterior, el intervalo con un nivel de confianza del
1    100 % para la varianza (  2
) será hallado por:

188
UNA La Molina - Dpto. de Estadística e Informática Estadística General

 n  1 s 2   2   n  1 s 2
 2
 
2
  
1 , n 1  , n 1
 2  2 
a b

Si se desea obtener los límites de confianza para la desviación estándar se obtiene la


raíz cuadrada en la expresión anterior obteniéndose:

 n  1 s 2  
 n  1 s 2
 2  
 2 
1 , n 1  , n 1
 2   2 

a b

Ejemplo 2
En 2011, se tomó una muestra de 35 casas en la Ciudad 1, y se hizo el estudio de las
siguientes variables: X= Peso total de basura producida en una casa durante un día
(Kg), Y= Peso de residuos orgánicos producidos (Kg) en una casa durante un día y Z=
Hábito de reciclaje, obteniéndose los siguientes resultados:

Peso Peso residuos Hábito de


Casa total de orgánicos reciclaje
basura
1 2.7 1.8 Si
2 3.0 1.5 No
3 1.5 0.8 No
4 1.8 0.8 No
5 3.0 2.1 Si
6 2.5 1.5 No
7 4.0 2.5 No
8 3.0 1.2 No
9 3.5 2.0 Si
10 5.0 3.7 No
11 1.5 0.8 No
12 2.5 1.3 No
13 2.3 1.3 No
14 3.5 2.8 No
15 5.0 3.5 No
16 4.0 2.1 No
17 4.0 2.6 No
18 3.0 1.2 No
19 2.5 1.0 No
20 2.8 2.0 No
21 2.8 1.9 Si
22 3.5 2.6 No
23 4.0 3.3 No
24 3.0 2.0 No
25 1.9 1.0 No
26 2.7 1.4 No
27 2.8 1.8 No
189
UNA La Molina - Dpto. de Estadística e Informática Estadística General

28 3.7 2.5 No
29 3.2 2.3 No
30 2.9 1.9 No
31 3.5 2.1 Si
32 3.0 1.3 No
33 5.0 3.4 No
34 3.5 2.7 No
35 4.0 3.2 Si
Cálculos:

Peso Peso residual


Total Orgánico

x 3.160 1.997

s 0.884 0.818
n 35 35

Del total de casas, sólo 6 tienen hábitos de reciclaje

a. Halle e interprete un intervalo de confianza del 95% para el peso total promedio de
basura producida en una casa durante un día.

Solución:

1    0.95    0.05  1   0.975 → t 0.975,34  2.032
2
0.884 0.884
3.160  2.032    3.160  2.032  2.856    3.464
35 35

Interpretación: Se tiene un nivel de confianza de 95% que el peso total promedio de


basura producida en una casa durante un día está en el intervalo  2.856,3.464 Kg.

b. Halle un intervalo de confianza de 95% para la verdadera proporción de casas que


tienen el hábito de reciclaje en esa ciudad.

Solución:
 6
1    0.95    0.05  1   0.975 .  Z 0.975  1.96 y p 
 0.1714
2 35
0.1714 x(1  0.1714) 0.1714 x(1  0.1714)
0.1714  1.96    0.1714  1.96
35 35
 0.0465    0.2963

Interpretación: Se tiene una confianza de 95% que la verdadera proporción de


casas que tienen el hábito de reciclaje, está en el intervalo 0.0465, 0.2963 .
c. Halle e interprete un intervalo de confianza del 95% para la varianza y desviación
estándar del peso de los residuos orgánico.

Solución:

190
UNA La Molina - Dpto. de Estadística e Informática Estadística General


1    0.95    0.05  1   0.975  20.975,34  51.966 y 20.025,34  19.806
2
(n  1) S 2 (n  1) S 2 (35  1)0.8182 (35  1)0.8182
2   2   0.438   2  1.149
 21 ;n1  2 ;n1 51.966 19.806
 2   2 

Interpretación: Se tiene una confianza de 95% que la verdadera varianza del peso
de los residuos orgánico se encuentra en el intervalo 0.438, 1.149 Kgs .2

Para la desviación estándar: 0.438    1.149  0.662    1.072


Interpretación: Se tiene una confianza de 95% que la verdadera desviación estándar
del peso de los residuos orgánico se encuentra en el intervalo 1.615, 2.616 Kg.
Ejemplo 3
Los siguientes datos corresponden a los pesos de destete (X 1) y peso de nacimiento
(X2), en gramos, de una muestra aleatoria de 10 cuyes.

X1 210 174 310 127 174 172 296 362 306 352
X2 140 142 140 90 92 84 156 200 185 180

Asumiendo que ambas variables tienen distribución normal:

a. Halle un intervalo de confianza de 90% para el verdadero peso medio de destete de


los cuyes.
Solución:
Peso de Peso al
Destete Nacer

248.3 140.9
x
s 85.7 41.4
n 10 10

  t0.95;9   1.833
1    0.90    0.10  1   0.95 .
2
s 85.7
x  t1 2,n1  248.3  1.833 , de donde se obtiene: 198.624, 297.976
n 10

Interpretación: Se tiene una confianza de 90% que el peso promedio de destete,


está en el intervalo 198.624, 297.976 gr.
One-Sample T: PDestete

Variable N Media StDev SE Media 90.0% CI


PDestete 10 248.3 85.7 27.1 ( 198.6, 298.0)

b. Halle un intervalo de confianza de 98% para la verdadera variancia del peso al nacer
de los cuyes.
Solución:

191
UNA La Molina - Dpto. de Estadística e Informática Estadística General


1    0.95    0.02  1   0.99  20.99,9   21.666 y 20.01,9   2.088
2
(n  1) S 2 2 (n  1)S 2 (10  1) x41.42 2 (10  1) x41.42
2
  2     711.975   2  7387.759
 1 ; n 1   ; n 1 21.666 2.088
2 2

Interpretación: Se tiene una confianza de 98% que la verdadera variancia del peso
al nacer está en el intervalo 711.975,7387.759 gr . 2

Para hallar el intervalo de confianza para  , se sacará la raíz cuadrada en ambos


límites: obteniéndose: 26.683,85.952 gr.
Ejercicio 1. Un inspector de calidad está evaluando si el contenido de fruta por lata es
el adecuado. Se supone que el contenido de fruta se distribuye como una normal. El
inspector escoge al azar 35 latas y encuentra que el peso promedio es de 29.2 onzas, la
variancia es de 4 onzas2 y que 5 no tienen un peso adecuado.

a. Halle e interprete un intervalo de confianza del 95% para el peso promedio


poblacional.

b. Halle e interprete un intervalo de confianza del 95% para la variancia y desviación


estándar poblacional del contenido de fruta en las latas.

192
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. Halle e interprete un intervalo de confianza del 99% para la proporción poblacional


de latas que presentan un peso adecuado

Ejercicio 2. Un fabricante de fibras sintéticas diseña un experimento para estimar la


tensión de ruptura media de una fibra, para lo cual observa las tensiones de ruptura (en
libras) de una muestra aleatoria de 12 hilos. Los datos obtenidos fueron:

19.3 20.2 21.4 18.3 18.6 19.4 22.5 20.8 19.6 21.3 18.5 22.4

a. Con una confianza del 98%, halle el intervalo de confianza para la tensión de
ruptura media de las fibras sintéticas. Interprete.

b. Halle e interprete un intervalo del 90% de confianza para la variancia de la tensión


de ruptura de las fibras sintéticas.

193
UNA La Molina - Dpto. de Estadística e Informática Estadística General

10.3 Determinación del Tamaño de Muestra

A continuación se presenta la manera de hallar el tamaño de muestra cuando se estima


a la media poblacional μ o cuando se estima a la proporción poblacional .

Determinación del tamaño de muestra para estimar a la media poblacional μ


x  t 2s2
Se sabe que: t , despejando se obtiene el tamaño de muestra: n 2
s/ n e
Donde:
 e es el margen de error que se quiere aceptar.
 El valor de t  t 1
 2  depende del nivel de confianza requerido y se trabaja con gl

.
 La variancia s 2 se obtiene de una muestra piloto.

Determinación del tamaño de la muestra para estimar la proporción


poblacional 
Se sabe que:
p  Z 2 1   
Z , despejando se obtiene el tamaño de muestra: n
 (1   ) e2
n

Donde:
 e es el margen error permisible.

 El valor de Z  Z 1  depende del nivel de confianza requerido


2
  es el parámetro que se desea estimar y como es desconocido, entonces se puede
tomar una muestra piloto para obtener un valor estimado. Se puede utilizar el valor
conservador igual a 0.5.

Ejemplo 4
Una famosa cadena de hoteles desea desarrollar un intervalo de confianza del 99% para
estimar el número promedio de habitaciones ocupadas cada noche en sus sucursales de
toda la nación. ¿Cuántas noches deben incluirse en la muestra si se puede tolerar un
error de 10 habitaciones y una muestra piloto revela una desviación estándar de 60
habitaciones?

Solución:
t 2 s 2 2.582 x602
  0.01  t 1 ,  t 0.995,  2.58  n  2   239.63  240 noches
 2  e 102

194
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 5
¿Cuántos estudiantes debe tener una muestra, con el fin de estimar la proporción de
estudiantes que tienen correo electrónico? En un estudio previo, se halló que de 150
estudiantes, 120 tenían correo electrónico. Se desea tener un nivel de confianza del
95% y un error del 3% en las estimaciones.

Solución:

120 1.962  0.8  0.2


p  0.8 , Z0.975  1.96 , entonces n0   682.95  683 y por lo
150 0.032
tanto:
En el siguiente cuadro se presenta las estimaciones de tamaños de muestra para
diferentes valores de margen de error:

Margen de error n
0,01 6146,560
0,02 1536,640
0,03 682,951
0,04 384,160
0,05 245,862
Se observa un incremento exponencial de tamaño de muestra al disminuir el margen de
error.

Ejercicio 3. ¿Cuál debe ser el tamaño de muestra para estimar el nivel medio del
consumo de proteínas de los adultos de una zona minera, si se desea tener un margen
de error de 0.45 g/dl y un nivel de confianza del 95%?. De una muestra piloto se
obtuvo que el consumo de proteínas tiene una desviación estándar de 2.5 g/dl.

Ejercicio 4. El director comercial de cierta compañía que realiza ventas por correo
electrónico, desea precisar con mucho cuidado su política de crédito. Si el director
desea tener un intervalo de confianza del 99% para la proporción de clientes que están
al día en sus pagos. ¿Qué tamaño de muestra debe usar si se desea tener un margen
de error del 4.5%?. Suponga que en una muestra piloto de 35 clientes se halló que 8
clientes están al día en sus pagos.

195
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 7

En la región norte del país, un agricultor ha cultivado dos variedades de maíz, el


Mochero y el Paro. Se desea realiza un estudio sobre el rendimiento de estas
variedades. De la variedad Mochero se analizaron 30 parcelas, obteniéndose un
rendimiento promedio de 1863 Kg con una desviación estándar de 12.5Kg, y de Paro 25
parcelas, con un promedio de 1750 Kg con una desviación 15.5Kg. Asumiendo que el
rendimiento del maíz sigue una distribución normal.

a. Calcule e interprete un intervalo de confianza del 98% para el rendimiento promedio


de maíz de variedad Paro.

b. Calcule e interprete un intervalo de confianza del 90% para la variancia y la


desviación estándar del rendimiento de la variedad Mochero.

196
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. Se ha observado que en la muestra de la variedad de maíz Paro, el 20% de las


parcelas viene siendo infectadas por una plaga. Construya un intervalo de confianza
del 90% para el verdadera proporción de parcelas con plagas.

d. Suponga que se desea realizar un estudio en la región sur del país, con la finalidad
de estimar la proporción de agricultores que prefieren el maíz Paro. Si en un estudio
previo, se halló que el 40% de pobladores prefiere el maíz Paro. Determine el
tamaño de muestra, si se desea tener un nivel de confianza del 90% y un error del
5% en las estimaciones.

e. Para el caso de la variedad mochero se desea estimar el rendimiento promedio por


agricultor. Determine el tamaño de muestra, si se desea tener un nivel de confianza
del 90% y un error del 80 kg en las estimaciones. Suponga que en una muestra
piloto se hallo una desviación estándar de 445 g.

197
UNA La Molina - Dpto. de Estadística e Informática Estadística General

10.4 Prueba de hipótesis

Una hipótesis estadística, es cualquier afirmación o suposición que se hace acerca del
tipo de distribución de probabilidad de la población o al valor o valores de uno o más
parámetros de la población: Media (  ), Variancia (   y Proporción (   .
2

Tipos de hipótesis

Hipótesis nula (H0 o Hp). Es la hipótesis que es aceptada provisionalmente como


verdadera y cuya validez será sometida a verificación experimental. Los resultados
experimentales nos permitirán seguir aceptándola como verdadera o si debemos
rechazarla como tal.

Hipótesis alterna (H1 o Ha). Es la hipótesis que se acepta en caso de que la hipótesis
nula sea rechazada. H1 es la suposición contraria a H0.

Prueba de hipótesis estadística es el proceso mediante el cual se toma la decisión de


aceptar o rechazar la hipótesis nula.

La aceptación de una hipótesis nula, significa que los datos de la muestra no


proporcionan evidencia suficiente para rebatirla. El rechazo significa que los datos de la
muestra lo rebaten.

Tipos de pruebas de hipótesis

Se pueden formular hasta tres tipos de prueba, la cual dependerá de la forma de la


hipótesis alterna que se formule:

Hipótesis unilateral Hipótesis bilateral Hipótesis unilateral con


con cola a la derecha o de dos colas cola a la izquierda
H 0 :   0 H 0 :   0 H 0 :   0
H1 :    0 H1 :    0 H1 :    0
Donde  es el parámetro de interés y  o el valor o los valores supuesto(s) que puede
tomar el parámetro.

Ejercicio 1. Para los siguientes enunciados formule la hipótesis nula y alterna e indique
el tipo de prueba.

Enunciado Formulación del Tipo de


tipo de hipótesis prueba
El peso promedio de destete de cierta raza
de cuyes es 230 gr

La proporción de casas del distrito SUR con


hábitos de reciclaje es mayor al 25%

La variancia de los diámetros de todos los


árboles de una zona es al menos 0.95 m2

La longitud media de las truchas de una


piscigranja es a lo más 35.5 cm

198
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Errores tipo I y tipo II

Al tomarse una decisión respecto a una hipótesis nula (H0), se puede presentar cuatro
posibles casos que determinan si la decisión tomada es correcta o incorrecta, esto se
presenta en la siguiente tabla:

Decisión H0 verdadera H0 falsa


Aceptar H0 Decisión correcta Error tipo II
Probabilidad = 1   Probabilidad = 
Rechazar H0 Error tipo I Decisión correcta
Probabilidad =  Probabilidad = 1  

Error tipo I, es el error que se comete cuando se rechaza una hipótesis nula que es
verdadera en la población.

Error tipo II, es el error que se comete cuando se acepta una hipótesis nula que es
falsa en la población.

Nivel de significación (  ). De una prueba de hipótesis, es la probabilidad de cometer


error tipo I.

La probabilidad de cometer error tipo I se denota por  , entonces:

 = P(error tipo I) = P(rechazar una hipótesis nula verdadera)

La probabilidad de cometer error tipo II se denota por  , entonces:

 = P(error tipo II) = P(aceptar una hipótesis nula falsa)

Potencia de prueba. Es igual a 1 -  , es la probabilidad de rechazar una hipótesis


nula que es falsa.

Región crítica y regla de decisión.

La regla de decisión involucra la división de la distribución muestral del estadístico 

(como X , S 2 etc.) de la prueba en dos partes mutuamente excluyentes: a región de


rechazo o región crítica (R.C) de la hipótesis nula, y la región de aceptación ( R.A ) o no
rechazo de la hipótesis nula. La división depende de la forma de la hipótesis
alternativa, del nivel de significación  y de la distribución muestral del estadístico.

199
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 6. Para una prueba de hipótesis de una media (μ), las regiones críticas según
el tipo de prueba serán:

Hipótesis unilateral con Hipótesis bilateral o de Hipótesis unilateral


cola a la derecha dos colas con cola a la izquierda
H 0 :   0 H 0 :   0 H 0 :   0
H1 :    0 H1 :    0 H1 :    0

t1 , n 1 t
, n 1
t  t , n 1
2 1 , n 1
2
La zona de rechazo está La zona de rechazo está La zona de rechazo
al lado derecho. a ambos lados. está al lado izquierdo.

Supuestos para las pruebas de hipótesis.

1. Prueba de hipótesis para una media poblacional (  ), para la variancia poblacional

  y para una proporción   .


2

a. La muestra es aleatoria.
b. La muestra proviene de una distribución normal.

2. Prueba de hipótesis para diferencias de medias poblacionales  1  2  , para la razón


  22 
de variancias poblacionales  2 
y para la diferencia de proporciones  1   2  .
 1 

a. Las muestras son aleatorias.


b. Las muestras provienen de distribuciones normales.
c. Las poblaciones son independientes.

Procedimiento general de la prueba de hipótesis de un parámetro 


1. Formular la hipótesis nula y la hipótesis alternativa.

2. Elegir el nivel de significación .


3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla de las pruebas de hipótesis.

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la hipótesis nula (Ho).

5. Decidir el rechazo de la hipótesis nula (Ho), si Ec cae en la región crítica de rechazo.


En caso contrario, no rechazar la hipótesis nula.

6. Conclusión

200
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Tabla de las pruebas de hipótesis

Hipótesis Valores tabulares E1 y E2


referida Prueba Estadística (E) =/2 para pruebas bilaterales
a :  = para pruebas unilaterales
2 desconocida y población normal

 tc=
X   0
~ t n 1
t1= - t(1-,n-1)
t2= t(1-,n-1)
s
n

 c2 
 n  1 S 2

 2n 1  12   2  , n  1
2
 02
 22   2 1   , n  1
p 0
Zc= ~ N(0,1)
 0 (1   0 ) Z1= Z()
 Z2 = Z(1-)
n

S12  22
2 2 Fc  F  n1  1, n2  1 F1= F(, n1-1, n2-1)
 /
2 1 S22  12 F1= F(1-, n1-1, n2-1)

a.  12 y  22 desconocidas pero
homogéneas y poblaciones normales. S 2

 n1  1 S12   n2  1 S22
n1  n2  2
X 
p

1  X 2   1  2 0
tc  t n1  n2  2 t1  t 1   , n1  n2  2 
1 1
S p2    t2  t 1   , n1  n2  2 
 n1 n2 
 12 y  22
2
1   2 b. desconocidas pero  s12 s22 
  
heterogéneas y poblaciones
H   12 2  2
n n
normales.
 s12   s22 
X 1  X 2   1  2 0    
tc  t H   n1    n2 
s12 s22 n1  1 n2  1

n1 n2 t1  t 1   , H 
t2  t 1   , H 

a. Cuando 1   2 =0 n1 p1  n2 p2
p1  p2   1   2 0 p
Zc  N  0,1 n1  n2
1 1

p 1 p   
 n1 n2 
 Z1= Z()
Z2 = Z(1-)
1   2
b. Cuando 1   2  0
p1  p2   1   2 0
Zc  N  0,1 Z1= Z()
p1 1  p1  p2 1  p2  Z2 = Z(1-)

n1 n2

201
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Prueba de hipóteis para una población

POBLACIÓN (N) MUESTRA (n)

X1 X1
X2  X2 X2
. 2 s .
.  p .
XN Xn

Parámetros Valores Estadísticos

Ejemplo 7. La gerencia financiera de una compañía inmobiliaria desea analizar las


Puntual
ventas de inmuebles en el último trimestre. Con esta finalidad extrae una muestra
Estimación
Por intervalo
aleatoria de 10 agentes registrando las ventas de confianza
realizadas (en miles dólares) en el último
trimestre.  Prueba
Suponga quedelashipótesis
ventas se distribuyen normalmente.
370 245 545 350 360 480 420 450 310 460

a. El gerente financiero sospecha que las ventas promedios por agente en el último
trimestre son menores a las ventas programadas que fueron de $ 465 (miles $).
Usando un nivel de significación del 5%, pruebe la afirmación del gerente financiero
1) Planteamie nto de hipótesis
H 0 :   465
H 1 :   465
2)   0.05
3) Pr ueba estadístic a
10 (399.0  465)
n  10 X  399.0 S  88.84  t c   2.35
88.84
4) t 0.05;9  1.833
5) Decisión estadístic a
Se rechaza H 0 .
6)Conclusión.
b. El gerente también cree que es importante analizar la variabilidad de las ventas
efectuadas por sus agentes. El gerente afirma que la variabilidad de las ventas en
este último trimestre no han variado con respecto al trimestre anterior que fue de $
130 (miles $). Usando un nivel de significación del 5%, será cierta la afirmación del
gerente financiero.
1) Planteamie nto de hipótesis
H 0 :  2  130 2
H 1 :  2  130 2
2)   0.05
3) Pr ueba estadístic a
9 x88.84 2
n  10 S  88.84    2
 4.2
130 2
c

4)  02..025,9  2.7,  02..975,9  19.023


5) Decisión estadístic a
No se rechaza H 0 .
6) Conclusión
202
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 8. El administrador del gimnasio GYM TOP, desea evaluar el servicio de


Sauna-Hidromasaje del local de Pueblo Libre. Con esta finalidad, se extrae una muestra
aleatoria de 28 clientes y se registra el tiempo (en minutos) que esperan para ser
atendidos. Los resultados indican un tiempo promedio de espera de 8.5 minutos, una
desviación estándar de 2.8 minutos y encuentran que sólo 21 clientes hacen una cita
previa para usar este servicio. Suponga normalidad para las variables en estudio.

a. El administrador de GYM TOP decidirá implementar una cabina más de Sauna-


Hidromasaje, si comprueba que el tiempo promedio de espera para ser atendido los
clientes en el servicio de Sauna-Hidromasaje es mayor a 7.0 minutos. Usando un
nivel de significación de 2.5%, ¿cuál será la decisión que tomará el administrador?.
SOLUCIÓN :
1) Planteamie nto de hipótesis
H 0 :   7.0
H1 :   7.0
2)   0.03
3) Pr ueba estadístic a
8.5  7.0
n  28 X  8.5 S  2.8  tc   2.83
2.8
28
4) t0.975; 27  2.052
5) Decisión estadístic a. Se rechaza H 0 .
6) Conclusión.
Con un nivel de significación de 0.05, el administrador decidirá implementar una
cabina más de sauna-hidromasaje.

b. El administrador piensa que para mejorar el servicio de Sauna-Hidromasaje es


necesario aumentar el porcentaje de clientes que hacen una cita previa para usar
este servicio. Con este fin, propone dar una promoción haciendo una rebaja en el
precio, si se verifica que menos del 42% de los clientes no hacen una cita previa
para usar este servicio. ¿Cuál es la decisión que tomaría el administrador?. Use un
α=0.05.

SOLUCIÓN :
1) Planteamie nto de hipótesis
H 0 :   0.42
H1 :   0.42
2)   0.05
3) Pr ueba estadístic a
7 0.25  0.42
n  28 p  0.25  Z c   1.82
28 0.42  0.58
28
4) Z 0.05  1.64
5) Decisión estadístic a. Se rechaza H 0 .
6) Conclusión .

Con un nivel de significación de 0.05, el administrador dará la promoci´n de una


rebaja del precio.

203
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 9. Aproximadamente 1 de cada 10 consumidores favorece la gaseosa A.


Después de una campaña de promoción en una zona de ventas, se seleccionó al azar
200 bebedores de ese producto, y se les entrevistó para determinar la efectividad de la
campaña. El resultado de la encuesta mostró que un total de 26 personas expresó su
preferencia por la marca A. ¿Son los datos suficientes para indicar un aumento en la
aceptación de la marca A en esta zona?. Emplear  = 5%.

H o :   0.1
H1 :   0.1

0.13  0.1
Z  1.41
0.1 * 0.9
200

Z1  Z0.95  1.64

Como 1.41< 1.64, no se rechaza la hipótesis nula; es decir, los datos no son
suficientes para indicar un aumento de preferencia en la marca A

Ejemplo 10. Un fabricante debe decidir si continua con el sistema de producción


actual o cambiarlo por uno nuevo. Se sabe que el tiempo promedio que utiliza el
sistema actual es de 4.5 minutos y una desviación estándar de 0.4 minutos. El
fabricante reemplazaría el actual sistema de producción sólo si el nuevo sistema resulta
más rápido en promedio y menos variabilidad que el nuevo. Si con el nuevo sistema
una muestra de 16 tiempos ha dado una media de 4.285 y una desviación estándar de
0.208. ¿Cuál sería la decisión a tomar? Use un  = 0.05.

H o :   4.5
H1 :   4.5

X  4.285 , n  16 y S  0.208

4.285  4.5
tc   4.13
0.208 / 16
t( ,n1)  t(0.05,15)  1.753
Región de Rechazo = RR = {t<-1.753}
Región de Aceptación = RA = {t ≥-1.753}
Se rechaza Ho, el nuevo sistema resulta más rápido en promedio
H 0 :  2  0.42
H1 :  2  0.42
(n  1) S 2 (15).0.2082
  2
  4.056
c
2 0.42
(2 ,n1)  (0.05,15)
2
 7.261
Región de Rechazo = RR = {x2<7.261}
Región de Aceptación = RA = { x2 ≥7.261}
Se rechaza Ho, el nuevo sistema resulta más estable en variabilidad. Decisión:
Cambiar el antiguo sistema por el nuevo
204
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 6. Una compañía de seguros vehicular desea analizar los gastos por
cobertura de accidentes de sus clientes del último trimestre. Para una muestra aleatoria
de 18 clientes que tuvieron accidentes, el gasto promedio fue de $ 750 y un desviación
estándar de $35. Asuma que el gasto tiene una distribución normal.

a. La compañía realizará un programa de capacitación de manejo a sus clientes, si se


comprueba que el gasto promedio de cobertura de accidentes de los clientes es
mayor a $730. Con un nivel de significación de 5%, la compañía de seguros realizará
la capacitación.

b. La compañía no aumentará el pago de la franquicia, si la variabilidad del gasto de


cobertura de accidentes de los clientes es menor a $ 50. Usando un nivel de
significación del 2.5%, la compañía no aumentará el pago de franquicia.

205
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. El gerente de marketing afirma que a los más el 26.5% de los clientes asegurados
han tenido un accidente en el último trimestre. Con esta finalidad se tomó una
muestra de 45 clientes, resultando que 15 tuvieron un accidente en el último
trimestre. Compruebe la afirmación del gerente, usando un nivel de significación del
5%.

d. ¿Con que valores del estimador no se rechazaría la hipótesis planteada en la


pregunta a?.

e. Si se sabe que el verdadero gasto promedio por cobertura de accidentes en el


último trimestre fue de $710 y un desviación estándar de $ 54. ¿Se ha cometido
algún error respecto a estos dos parámetros?.

206
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Prueba de hipótesis para dos poblaciones

Ejemplo 7
(En este ejemplo se usan los resultados del estudio durante 2011 de la ciudad 1 del
ejemplo 2 y datos ya calculados de la cuidad 2 para ese mismo año). Se estudió el
peso total de basura producida por casa durante un día en dos ciudades, para lo cual se
tomaron dos muestras de tamaños 35 y 40 respectivamente obteniéndose:

Ciudad 1 Ciudad 2

x 3.1600 3.7575

s 0.884 0.3809
n 35 40

¿Hay evidencias estadísticas para afirmar que el peso total promedio en la ciudad 1 es
3.22 Kg? Use =0.05

1. Formular la hipótesis nula y la hipótesis alternativa.


H 0 : 1  3.22
H1 : 1  3.22

2. Elegir el nivel de significación. =0.05

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor


estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

tc=
X 1  0  n1 ~t(n-1) Cálculo: tc 
 3.16  3.22  35  0.402
s1 0.884

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la prueba.

207
UNA La Molina - Dpto. de Estadística e Informática Estadística General

La prueba es bilateral por la forma de la


hipótesis alternativa H1 : 1  3.22
Región de rechazo=RR=
t  2.032  t  2.032
Región de aceptación=RA=
2.032  Z  2.032

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso


contrario, no rechazar la hipótesis nula.

tc = -0.402 cae en la RA, entonces no hay evidencias estadísticas para rechazar la


H0 , en otras palabras no se rechaza la afirmación de que el peso total promedio es
3.22 en la ciudad 1.

Ejemplo 8
Después de la ejecución en el 2011 del estudio del peso de residuos orgánicos
producidos por casa durante un día en las ciudades 1 y 2; en el 2012 se volvió a
recoger datos en las mismas dos ciudades, para lo cual se tomaron dos muestras de
tamaños 17 y 22 casas respectivamente obteniéndose:

Ciudad 1 Ciudad 2

1.777 2.115
x
s 0.718 0.6549
n 17 22

a. ¿Hay evidencias estadísticas para afirmar que el peso promedio de residuos


orgánicos en la ciudad 1 es menor de 2.5 Kg? Use =0.025

1. Formular la hipótesis nula y la hipótesis alterna.


H 0 : 1  2.5
H1 : 1  2.5

2. Elegir el nivel de significación. =0.025

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor


estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

X 1  0  1.777  2.5 *
tc= n1 ~ t(n-1) Cálculo: tc  17   4.1518
s1 0.718

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la prueba.
La prueba es unilateral a la izquierda por la forma de la hipótesis alterna
H1 : 1  2.5

208
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Región de rechazo = RR = {t < -2.120}


Región de aceptación = RA = {t≥-2.120}

Región de
Aceptación

t 

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso


contrario, no rechazar la hipótesis nula.

tc = -2.120 cae en la RR, entonces hay evidencias estadísticas para rechazar la H 0 ,


en otras palabras se acepta la afirmación de que el peso promedio de residuos
orgánicos es menor que 2.5 Kg en la ciudad 1.

¿Hay evidencias muestrales para establecer que el promedio de los residuos orgánicos
de la ciudad 2 excede al de la ciudad 1 en más de 1 Kg? Use  =0.10

Solución

Caso: Prueba de hipótesis para 2  1 con 12 y  22 desconocidas


Primer Paso.
 22
Prueba de hipótesis para  12   22  1
 12
1. Formular la hipótesis nula y la hipótesis alterna.

 22
H 0 :  12   22  1
 12
 22
H1 :     2  1
2
1
2
2
1
2. Elegir el nivel de significación. =0.10

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor


estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

S12  22
Fc  ~ F (n1  1, n2  1) ~ F (16,21).
S 22  12
Cálculo:
0.7182
Fc  1.2019
0.6549 2

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la prueba.
 22
La prueba es bilateral por la forma de la hipótesis alternativa H1 :  12   22  1
 12
Región de rechazo = RR = F 16,21; 0.05  0.44 F (16,21; 0.95)  2.16
Región de aceptación = RA = 0.44  F  2.16
209
UNA La Molina - Dpto. de Estadística e Informática Estadística General

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso


contrario, no rechazar la hipótesis nula.
Fc = 1.2019 cae en la RR, entonces no hay evidencias estadísticas para no rechazar
 22
la H0, en otras palabras hay homogeneidad de variancias (     2  1 ).
2 2
1 2
1

Segundo Paso

Caso: Prueba de hipótesis para 2  1 con 12 y  22 desconocidas pero


homogéneas.

1. Formular la hipótesis nula y la hipótesis alterna.

H o :  2  1  1
H1 :  2  1  1
2. Elegir el nivel de significación. =0.10

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor


estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

(17  1) * 0.7182  (22  1) * 0.6549 2


S p2   0.46636
17  22  2

(2.115  1.777)  1
tc   3.002
1 1
0.46636(  )
22 17

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la prueba.

La prueba es unilateral hacia la derecha por la forma de la hipótesis alterna


H1 :  2  1  1

Región de rechazo = RR = { t`c  1.69 }


Región de aceptación = RA = { tc  1.69 }

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso


contrario, no rechazar la hipótesis nula.

tc = 3.002 cae en la RR, entonces hay evidencias estadísticas para rechazar la H 0 y


aceptar la H1, en otras palabras se acepta la afirmación de que el peso de residuos
orgánicos promedio de la ciudad 2 excede al de la ciudad 1 en 1 Kg.

Ejemplo 9
Se hicieron 9 y 8 observaciones de pH en suelo superficial de cada una de dos
diferentes localidades, obteniéndose:

Localidad 1 8.53 8.52 8.01 7.99 7.93 7.89 7.85 7.82 7.80

210
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Localidad 2 7.85 7.73 7.58 7.40 7.35 7.30 7.27 7.27

Suponiendo que en cada localidad el pH tiene distribución normal.

a. ¿Se puede afirmar que la verdadera media de valores de pH del suelo en la localidad
1 es por lo menos 8.08? Use  =0.05.

Solución
Localidad 1 Localidad 2

8.04 7.47
x
s 0.285 0.224
n 9 8

1. Formular la hipótesis nula y la hipótesis alternativa.


H 0 : 1  8.08
H1 : 1  8.08

2. Elegir el nivel de significación. =0.05

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor


estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

tc=
X 1  0  n1 ~ t n 1 t8 Cálculo: tc 
8.04  8.08 9  0.42
s1 0.285

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la prueba.

La prueba es unilateral a la izquierda por la forma de la hipótesis alternativa


H1 : 1  8.08
Región de rechazo = RR = t8  1.86  
Región de aceptación = RA = t8  1.86  
5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.

tc = -0.42 cae en la RA, entonces no hay evidencias estadísticas para rechazar la


H0, en otras palabras no se rechaza la afirmación de que la media del pH es por lo
menos 8.08 en la localidad 1.

One-Sample T: Local 1
Test of mu = 8.08 vs mu < 8.08

Variable N Mean StDev SE Mean


Local 1 9 8.0378 0.2852 0.0951

Variable 95.0% Upper Bound T P


Local 1 8.2145 -0.44 0.334

b. Si en realidad 1  8 , ¿Se cometió algún error en la pregunta a). Justifique.

No se rechazó una hipótesis falsa, entonces se cometió error tipo II.


211
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. ¿Con qué valores del estimador se rechazará la hipótesis planteada en la pregunta


a)?

Se rechazará H0 si
X 1  0  n1  1.86 
X 1  8.08
9  1.86  X1  7.903
s1 0.285
Se rechazará H0 si X1  7.903 .

d. En la localidad 2 la variancia del pH era de 0.022, pero un especialista considera


que ha aumentado ¿Tiene razón el especialista? Use  =0.10.

Solución
Caso Prueba de hipótesis para  22 .

1. Formular la hipótesis nula y la hipótesis alternativa.


H 0 :  22  0.022
H1 :  22  0.022

2. Elegir el nivel de significación. =0.10

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor


estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:
 n  1 S22  2  
2  8  1 0.2242
 15.97
 
2
 n 1  27 . Cálculo:
22
0.022
c 2
c

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la prueba.

La prueba es unilateral a la derecha por la forma de la hipótesis alternativa


H1 :  22  0.022
Región de rechazo = RR =    12.017 2
7

Región de aceptación = RA =     12.017 2


7

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso


contrario, no rechazar la hipótesis nula.

 c2 = 15.97 cae en la RR, entonces hay evidencias estadísticas para rechazar la H0 ,


en otras palabras la muestra nos permite afirmar que la variancia aumentó.

e. Si en realidad  22  0.022 , ¿Se cometió algún error en la pregunta d). Justifique.

Se rechazó una hipótesis planteada verdadera, entonces se cometió error tipo I.

f. ¿Con qué valores del estimador no se rechazará la hipótesis planteada en la


pregunta d)?

No se rechazará H0 si:  
2n  1 S22  8  1 S22
  12.017  S22  0.038
c 2
2 0.022
212
UNA La Molina - Dpto. de Estadística e Informática Estadística General

No se rechazará H0 si: S22  0.038 .

g. ¿Hay homogeneidad de variancias? Use  =0.10.

Solución
 22
Caso Prueba de hipótesis para  12   22  1
 12
1. Formular la hipótesis nula y la hipótesis alternativa.
 22
H 0 :  12   22  1
 12
 22
H1 :  12   22  1
 12
2. Elegir el nivel de significación. =0.10

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor


estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

S2  2 0.2852
Fc  12 22 F  n1  1, n2  1 F  8, 7  . Cálculo: Fc   1.62
S2  1 0.2242

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la prueba.
 22
La prueba es bilateral por la forma de la hipótesis alternativa H1 :  12   22  1
 12
 1 
Región de rechazo = RR =  F 8,7    0.29  F 8,7   3.73
 3.50 
Región de aceptación = RA = 0.29  F  3.73

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso


contrario, no rechazar la hipótesis nula.

Fc = 1.62 cae en la RA, entonces hay evidencias estadísticas para no rechazar la H 0 ,


 22
en otras palabras hay homogeneidad de variancias (     2  1 )
2 2
1 2
1
h. ¿Sugiere la información que la verdadera media de valores de pH del suelo difiere
para las dos localidades? Use =0.05.

Solución
Caso Prueba de hipótesis para 2  1 con 12 y  22 desconocidas y homogéneas

1. Formular la hipótesis nula y la hipótesis alternativa.


H 0 : 2  1  0
H1 : 2  1  0

2. Elegir el nivel de significación. =0.05

213
UNA La Molina - Dpto. de Estadística e Informática Estadística General

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor


estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:
X 2  X1  k
tc  t n1  n2 2 t15 .
1 1
s 2p (  )
n2 n1

Cálculos: s 2p 
 n1  1 s12   n2  1 s22 
8  0.2852  7  0.2242
 0.067 
n1  n2  2 15

tc 
 7.47  8.04   0  4.53
1 1
0.067    
9 8

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la prueba.

La prueba es bilateral por la forma de la hipótesis alternativa H1 : 2  1  1


Región de rechazo = RR = t
15  
 2.131  t15  2.131 
Región de aceptación = RA = 2.131  t 15
 2.131 
5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.

tc = -4.53 cae en la RR, entonces hay evidencias estadísticas para rechazar la H 0 , en


otras palabras la información nos permite afirmar que la media de valores de pH del
suelo difiere en ambas localidades.

Two-Sample T-Test and CI: Local 2, Local 1


Two-sample T for Local 2 vs Local 1
N Mean StDev SE Mean
Local 2 8 7.469 0.224 0.079
Local 1 9 8.038 0.285 0.095

Difference = mu Local 2 - mu Local 1


Estimate for difference: -0.569
95% CI for difference: (-0.837, -0.301)
T-Test of difference = 0 (vs not =): T-Value = -4.53 P-Value = 0.000 DF = 15
Both use Pooled StDev = 0.259

Ejemplo 10
La siguiente información es el resultado de un experimento para medir el porcentaje de
aumento de peso para ratones jóvenes de laboratorio a los que se administró una dieta
estándar y ratones a los que se les dio 2000 partes por millón (ppm) de nitrato (fuerte
dosis) en el agua que bebieron.

Nitrato (1) 12.7 19.3 20.5 10.5 14.0 10.8 16.6 14.0 17.2
Control (2) 18.2 32.9 10.0 14.3 16.2 27.6 15.7

Suponiendo que el porcentaje de aumento de peso con nitrato y del control tienen
distribución normal.
a. ¿Son homogéneas las variancias? Use =0.10.

214
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Solución

Nitrato (1) Control (2)

15.07 % 19.27 %
x
s 3.558 % 8.053 %
n 9 7
 22
Caso Prueba de hipótesis para    2 1
2
1
2
2
1
1. Formular la hipótesis nula y la hipótesis alterna.
 22
H 0 :  12   22  1
 12
 22
H1 :     2  1
2
1
2
2
1
2. Elegir el nivel de significación. =0.10

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor


estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:
S2  2 3.5582
Fc  12 22 F  n1  1, n2  1 F  8, 6  . Cálculo: Fc   0.195
S2  1 8.0532

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la prueba.
 22
La prueba es bilateral por la forma de la hipótesis alterna H1 :  12   22  1
 12
 1 
Región de rechazo = RR =  F 8,6    0.279  F 8,6   4.15
 3.58 
Región de aceptación = RA = 0.279  F  4.15

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso


contrario, no rechazar la hipótesis nula.
Fc = 0.195 cae en la RR, entonces hay evidencias estadísticas para rechazar la H 0 ,
 22
en otras palabras no hay homogeneidad de variancias (  1   22 
2
1)
 12

b. Determine con =0.01, si una fuerte dosis de nitrato retarda el verdadero promedio
de porcentaje de aumento de peso en ratones.

Solución

Caso Prueba de hipótesis para 1  2 con 12 y  22 desconocidas y heterogéneas

1. Formular la hipótesis nula y la hipótesis alterna.


H 0 : 1  2  0
H1 : 1  2  0

2. Elegir el nivel de significación. =0.01


215
UNA La Molina - Dpto. de Estadística e Informática Estadística General

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor


estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:
X1  X 2  k
tc  t H  t8 .
s12 s22

n1 n2
2 2
 s12 s22   3.5582 8.0532 
     
 n1 n2   9 7 
Cálculos: H  2 2
 2 2
 7.825  8
 s12   s22   3.5582   8.0532 
       
 n1    n2   9   7 
n1  1 n2  1 8 6

tc 
15.07  19.27   0  1.29
3.5582 8.0532

9 7

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la prueba.

La prueba es unilateral a la izquierda por la forma de la hipótesis alternativa


H1 : 1  2  0
Región de rechazo = RR = t8   2.896  
Región de aceptación = RA = t   2.896
8

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso


contrario, no rechazar la hipótesis nula.

tc = -1.29 cae en la RA, entonces hay evidencias estadísticas para no rechazar la H 0 ,


en otras palabras una fuerte dosis de nitrato no retarda el verdadero promedio de
porcentaje de aumento de peso en ratones.

Ejemplo 11
(En este ejemplo se usan los datos de la ciudad 1, del ejemplo 2). ¿Hay evidencias
estadísticas para afirmar que la verdadera proporción de casas que tienen hábito de
reciclaje es a lo más 0.15? Use   0.025 .

Solución
6
p  0.1714
35

Caso Prueba de hipótesis para una proporción  .

Procedimiento
1. Formular la hipótesis nula y la hipótesis alternativa.
H 0 :   0.15
H1 :   0.15
2. Elegir el nivel de significación. =0.025

216
UNA La Molina - Dpto. de Estadística e Informática Estadística General

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor


estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:
p 0 0.1714  0.15
Zc= ~ N(0,1). Cálculo: Zc   0.35
 0 (1   0 ) 0.15  0.85
n 35

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la prueba.

La prueba es unilateral a la derecha por la forma de la hipótesis alternativa


H1 :   0.15

Región de rechazo = RR = Z  1.96


Región de aceptación = RA = Z  1.96

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso


contrario, no rechazar la hipótesis nula.

Zc = 0.35 cae en la RA, entonces no hay evidencias estadísticas para rechazar la


H0, en otras palabras la proporción de casas que tienen hábito de reciclaje es a lo
más 0.15.

Test and CI for One Proportion: Hábitos

Test of p = 0.15 vs p > 0.15

Success = Si

Variable X N Sample p 95.0% Lower Bound Z-Value P-Value


Hábitos 6 35 0.171429 0.066643 0.36 0.361

Ejemplo 12
En una biblioteca universitaria se hace un inventario completo de libros en estantes,
una vez al año. El bibliotecario propone seleccionar 800 libros al azar de entre la
colección de la biblioteca e investigarlos de un modo semejante. Si la evidencia
muestral indica que la verdadera proporción de libros mal colocados o extraviados es
menor 0.02, entonces el inventario se pospondrá. Entre 800 libros buscados, 12
estaban mal colocados o no se pudieron encontrar.

a. Pruebe las hipótesis pertinentes y asesore al bibliotecario sobre qué hacer. Use α =
0.05.

Solución
12
p  0.015
800

Caso Prueba de hipótesis para una proporción  .

1. Formular la hipótesis nula y la hipótesis alterna.


H 0 :   0.02
H1 :   0.02
217
UNA La Molina - Dpto. de Estadística e Informática Estadística General

2. Elegir el nivel de significación. =0.05

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor


estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:
p 0 0.015  0.02
Zc= ~ N(0,1). Cálculo: Zc   1.01
 0 (1   0 ) 0.02  0.98
n 800

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la prueba.

La prueba es unilateral a la izquierda por la forma de la hipótesis alternativa


H1 :   0.02
Región de rechazo = RR = Z  1.65
Región de aceptación = RA = Z   1.65

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso


contrario, no rechazar la hipótesis nula.

Zc = -1.01 cae en la RA, entonces no hay evidencias estadísticas para rechazar la


H0, en otras palabras hay que sugerirle al bibliotecario que haga el inventario.

b. En otra biblioteca universitaria de 850 libros buscados, 19 estaban mal colocados o


no se pudieron encontrar. Con esta información muestral se puede concluir que la
verdadera proporción de libros mal colocados o extraviados es similar en ambas
universidades. Use =0.05.

Solución
12 19
p1   0.015 p2   0.022
800 850

Caso Prueba de hipótesis para una diferencia de proporciones 1   2 = 0.

1. Formular la hipótesis nula y la hipótesis alterna.


H 0 : 1   2  0
H1 :  1   2  0

2. Elegir el nivel de significación. =0.05

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor


estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:
p1  p2   1   2 
Zc  N  0,1 .
1 1
 
p 1 p   
 n1 n2 
n1 p1  n2 p2 800  0.015  850  0.022
Cálculos: p   0.019
n1  n2 800  850
218
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Zc 
 0.015  0.022   0  1.04
 1 1 
0.019  0.981   
 800 850 

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la prueba.
La prueba es bilateral por la forma de la hipótesis alternativa H1 : 1   2  0
Región de rechazo = RR = Z  1.96  Z  1.96
Región de aceptación = RA = 1.96  Z  1.96

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso


contrario, no rechazar la hipótesis nula.

Zc = -1.04 cae en la RA, entonces hay evidencias estadísticas para no rechazar la H 0


, en otras palabras la información nos permite afirmar la verdadera proporción de
libros mal colocados o extraviados es similar en ambas universidades.

c. ¿La información nos permite afirmar que la verdadera proporción de libros mal
colocados o extraviados en la universidad 2 es menor que en la universidad 1 en -
0.005. Use =0.05.

Solución

12 19
p1   0.015 p2   0.022
800 850

Caso Prueba de hipótesis para una diferencia de proporciones 1   2  0.

1. Formular la hipótesis nula y la hipótesis alterna.


H 0 :  1   2  0.005
H1 :  1   2   0.005

2. Elegir el nivel de significación. =0.05

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor


estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

p1  p2   1   2 
Zc  N  0,1
p1 1  p1  p2 1  p2 

n1 n2
0.015  0.022   0.005 
Cálculos: Z c   0.30
0.015  0.985 0.022  0.978

800 850

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de


aceptación de la prueba.

219
UNA La Molina - Dpto. de Estadística e Informática Estadística General

La prueba es bilateral por la forma de la hipótesis alterna H1 : 1   2  0.005

Región de rechazo = RR = Z  1.96  Z  1.96


Región de aceptación = RA = 1.96  Z  1.96

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso


contrario, no rechazar la hipótesis nula.

Zc = -0.30 cae en la RA, entonces hay evidencias estadísticas para no rechazar la H 0,


en otras palabras la información nos permite afirmar la verdadera proporción de
libros mal colocados o extraviados en la universidad 2 es menor que en la
universidad 1 en –0.005.

Ejercicio 7. Un investigador diseñó un experimento en el que pidió a un determinado


número de sujetos que lleven a cabo una tarea específica en un medio controlado y
bajo dos niveles diferentes de ruido de fondo (el nivel 2 es más severo que el nivel 1).
El investigador seleccionó 44 personas que son capaces de realizar la misma tarea y de
manera práctica en el mismo tiempo.
Los siguientes datos representan los tiempos observados (en minutos) que fueron
necesarios para completar la tarea:

Nivel 1 Nivel 2
n 21 23

14.4 18.6
x
s 2.277 2.450

Asuma que los tiempos observados en cada nivel tienen distribución normal.

a. ¿Hay evidencias estadísticas para afirmar que el verdadero tiempo medio en el nivel
1 es menor que 15.5 minutos? Use  = 0.05.

b. Si el investigador afirma que la verdadera desviación estándar del tiempo con el nivel
2 era 2.3, pero un especialista considera que ha aumentado ¿Tiene razón el
especialista? Use =0.10.

220
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. Si 10 personas a los que se les aplicó el primer nivel de ruido excedieron el tiempo
límite para llevar a cabo la tarea específica. Pruebe a un =0.05 si más del 30% de
personas a los que se les aplica el primer nivel de ruido exceden el tiempo límite
para llevar a cabo la tarea específica.

d. ¿Son similares los tiempos medios con ambos niveles de ruido?. Use =0.10.

221
UNA La Molina - Dpto. de Estadística e Informática Estadística General

e. Si 12 personas a los que se les aplicó el primer nivel de ruido y 15 personas a lo que
se les aplicó el segundo nivel de ruido excedieron el tiempo límite para llevar a cabo
la tarea específica. Pruebe a un =0.05 si la proporción de personas que supera el
tiempo límite en llevar a cabo la tarea específica es mayor al aplicar el primer nivel
de ruido que el segundo nivel de ruido.

Ejercicio 8. Un agricultor desea probar la eficiencia de dos concentraciones de


plaguicidas en muestras de cultivos de frijol canario. Luego de la cosecha se obtuvo los
siguientes resultados de rendimiento en Kg/parcela.
222
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Plaguicida A B
Tamaño de muestra 17 19
Rendimiento promedio en Kg/parcela 210 180
Variancia muestral 18.50 58.20

Asumiendo normalidad en los rendimientos (Kg/parcela)

a. ¿Se puede afirmar que el rendimiento promedio de frijol canario es mayor a 185
Kg/parcela utilizando el plaguicida A? Use  = 0.05

b. ¿Se puede afirmar que el rendimiento promedio obtenido utilizando el plaguicida A


supera al plaguicida B en más de 20 kg/parcela? Use  = 0.10

Práctica Dirigida N° 8

En una región del país, un agricultor ha cultivado dos variedades de maíz, el Mochero y
el Paro. El desea realiza un estudio sobre el rendimiento de estas variedades. Para ello
223
UNA La Molina - Dpto. de Estadística e Informática Estadística General

el agricultor solicita su asesoramiento para la recolección y análisis de la información.


De la variedad Mochero se analizaron 30 parcelas, obteniéndose un rendimiento
promedio de 1863 Kg con una desviación estándar de 12.5Kg, y de Paro 25 parcelas,
con un promedio de 1750 Kg con una desviación 15.5Kg. Asumiendo que el rendimiento
del maíz sigue una distribución normal.

a. ¿Existe evidencia para afirmar que el rendimiento medio del maíz de la variedad
Mochero es superior a 1855 Kg? Use α=0.05.

b. Si en realidad µ=1860 Kg. ¿se cometió algún error en la pregunta anterior?


Justifique.

224
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. ¿Existe evidencia para afirmar que la variabilidad del rendimiento del maíz de la
variedad Paro es inferior a 16.5Kg.? Use α=0.05

d. El agricultor afirma que no existe diferencia en el rendimiento promedio de las


variedades de maíz. ¿Tiene razón el agricultor? Use α=0.02

225
UNA La Molina - Dpto. de Estadística e Informática Estadística General

e. Se quiere agregar al análisis otro indicador y se aplica una encuesta a los pobladores
de la comunidad A y la comunidad B, sobre la preferencia del consumo de maíz entre
las variedades en estudio. Para ello se tomó una muestra de 150 pobladores de cada
comunidad y se obtuvo el siguiente resultado:

Preferencias de consumo de maíz Mochero y Paro según


comunidad
80%
70%
67% Mochero
60% 53% Paro
47%
Porcentaje

50%
40% 33%
30%
20%
10%
0%
A B
Comunidad

El agricultor está seguro que la proporción de pobladores que prefieren consumir la


variedad Mochero de la comunidad A es superior a la proporción de los consumidores de
la comunidad B en 0.05. Use α=0.05

226
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. Se estudió la densidad (en gr/cm3) de tres tipos de roca, obteniéndose:

Tipo de
n s
roca x
I 14 3.06 0.14
II 18 2.85 0.12
III 22 3.02 0.29

a. Para el tipo de roca III, estime la densidad media con un intervalo de confianza
de 95%.
b. ¿Es la densidad media de la roca tipo II igual a 3 gr/cm3? Use =0.0456.
c. ¿Es la densidad media de la roca tipo III menor que la de tipo I? Use
=0.0548.

2. Se está desarrollando un estudio para medir el nivel de estrés promedio de


estudiantes. Se sabe que la población de los puntajes de la prueba para medir el
nivel de estrés de un estudiante preuniversitario se distribuye normalmente con
desviación estándar de 11 puntos. Calcule un intervalo de confianza para
con un
nivel de confianza del 90%, si se elige una muestra aleatoria de tamaño 80 ha dado
una media de 72 puntos.

3. Durante una semana, una tienda de grandes almacenes local registró que 8540 de
las 12810 personas que entraron en la tienda hicieron por lo menos una compra.
Tratando esto como una muestra ala azar de todos los clientes potenciales. Hallar
un intervalo de confianza del 90% para la proporción real de personas que entran
en la tienda y que harán por lo menos una compra.

4. Si en una muestra de 600 estudiantes de Estadística tomada en universidades del


país, 360 tienen hermanos en el área informática. ¿Cuál es el intervalo de confianza
del 90% para la proporción de todos los estudiantes de Estadísticas que tienen
hermanos en el área de informática?. Asuma que el número de estudiantes de
Estadística en todo el país se estima en 5000.

5. Una planta industrial desea determinar qué tipo de combustible (gas o eléctrico)
producirá más energía usada al menor costo. Una medida de la producción de
energía económica es la razón cuadrangular calculada tomando la cantidad de
dinero (en dólares) invertido en un uso particular de la planta y dividirla entre la
cantidad liberada de energía (en unidades térmicas). Cuanto más pequeño es esta
razón, menos es lo que la planta industrial paga por la energía liberada. Se
tomaron muestras aleatorias de 12 plantas que usan combustible eléctrico y 15
plantas que usan combustible a gas, se midió la razón cuadrangular descrita
anteriormente obteniéndose:

Planta Eléctrica Gas


n 12 15
Media 45.8 35.8
Variancia 67.2 64.5

Asuma que la razón cuadrangular eléctrica y a gas tiene distribución normal.


a. Determine e interprete un intervalo de confianza de 98% para la desviación
estándar de la razón cuadrangular de plantas con combustible eléctrico.
b. ¿Hay homogeneidad de variancias? Use   0.10 .
c. ¿Hay evidencias estadísticas para concluir que en promedio con combustible a
gas se ahorra más que con combustible eléctrico? Use   0.10
227
UNA La Molina - Dpto. de Estadística e Informática Estadística General

6. Se estudió la cantidad de D.D.T, en partes por millón (ppm), encontrados en tejidos


cerebrales de pelícanos. Con una muestra aleatoria de 10 pelícanos jóvenes se
obtuvo una media de 0.041 ppm y una desviación estándar de 0.017 ppm mientras
que con una muestra aleatoria de 13 pelícanos polluelos se obtuvo una media de
0.026 ppm y una desviación estándar de 0.006 ppm. Asumiendo que la cantidad
de D.D.T tiene distribución normal.

a. ¿Hay evidencias estadísticas para establecer que las variancias difieren? Use
  0.02 .
b. ¿El contenido promedio de D.D.T en pelícanos jóvenes supera al de pelícanos
polluelos en más de 0.01 ppm? Use   0.02

7. Se sabe que el peso de ciertas bolsas de arroz, embolsadas por una máquina, tiene
distribución normal. Se tomó una muestra aleatoria de 22 bolsas obteniéndose una
media de 1.990 Kg y una variancia de 0.0004 Kg 2 .
a. Determine e interprete un intervalo de confianza de 95% para la verdadera
desviación estándar del peso.
b. La empresa afirma que el verdadero peso promedio de las bolsas es 2 Kg, pero
determinados consumidores dicen que le están dando menos peso en las bolsas.
¿Quién tiene la razón? Use   0.05 .
c. Suponga que en realidad el verdadero peso medio es 2 Kg. ¿Se cometió algún
error en la pregunta b? Justifique su respuesta.

8. Un estudio para comparar la actitud de la gente hacia el feminismo con su grado de


autoritarismo. Dos muestras aleatorias fueron usadas, la primera consiste en 24
sujetos con alto grado de autoritarismo y la segunda consta de 22 sujetos con bajo
grado de autoritarismo. Cada sujeto fue evaluado con una prueba de 18 preguntas
donde se revela su actitud frente al feminismo, con una calificación en una escala
de 18 a 90 (Una calificación alta indica pro-feminismo), obteniéndose:

Autoritarismo n x s

Alto 24 68.2 10.4


Bajo 22 54.8 12.5

¿Hay evidencias estadísticas para afirmar que el nivel de autoritarismo difiere en lo


que se refiere al feminismo?. Use   0.10 para las dos pruebas necesarias.

9. Según las estadísticas, a lo más el 35% de los estudiantes universitarios fuman


regularmente. En una muestra aleatoria de 500 estudiantes universitarios se
encontró que 200 fuman regularmente.
a. ¿Tienen razón las estadísticas? Use =0.05.
b. Estime la verdadera proporción de estudiantes que fuman con un coeficiente de
confianza del 90%. Interprete.

10. Un partido político afirma que el 60% de los electores están de acuerdo con él en
cierto problema. En una muestra aleatoria de 800 electores se encontró que 455
están a favor.
a. ¿Puede el partido sostener su afirmación?. Use =0.05.
b. Determine e interprete un intervalo de confianza del 95% para la verdadera
proporción de electores que están de acuerdo con ese partido político.

228
UNA La Molina - Dpto. de Estadística e Informática Estadística General

11. En una evaluación sobre la duración de llantas mediante su recorrido hasta su


desgaste. Se obtuvieron dos muestras aleatorias de las marcas Greeck y Nico de 30
y 35 llantas respectivamente, los cuales se muestran en la siguiente tabla:

Duración promedio de Desviación


Tipo de Tamaño de
la llanta (miles de estándar
llanta muestra
km.) muestral

Greeck 20 86 9.8
Nico 25 81 10.4

a) Calcule e interprete un intervalo del 95% de confianza para la duración promedio


de la marca Greeck.
b) Un primer resultado en este estudio señala que la duración promedio de las
llantas Greeck es mayor a 86.8 mil kilómetros. ¿Que podría afirmar Ud.? Use 
= 0.05
c) ¿Se puede afirmar que la variancia de la duración de las llantas de marca Nico es
menor a 100 (mil km)2? Use  = 0.05
d) Se realizó un estudio posterior y se determinó que la variancia del tiempo de
duración de las llantas marca Nico es 89 (mil Km.)2. ¿Se cometió algún error en
la pregunta anterior?
e) De acuerdo a las muestras de llantas tomadas en ambas marcas, ¿Se puede
afirmar que la duración media de ambas marcas de llantas son similares? Use 
= 0.10

12. El gerente de una compañía productora de artículos para pintar consulta a un


Ingeniero Estadístico para saber qué tamaño de muestra debe tomar para estimar
la cantidad media de pintura contenida en las 9000 latas de un galón producidas.
El Ingeniero Estadístico le pregunta al gerente que margen de error está dispuesto
a aceptar y este le contesta que 0.005 galones. El Gerente le dice al Ingeniero que
con base a trabajos anteriores se sabe que la desviación estándar es 0.02 galones y
el Ingeniero sugiere un nivel de confianza de 95%. ¿Cuántas latas se debe tomar?

13. ¿Cuál debe ser el tamaño de muestra para estimar la proporción de escolares de
quinto de secundaria, en cierto distrito, que saben nadar (asuma que en ese distrito
hay aproximadamente 5000 estudiantes de quinto de secundaria)?. Considere un
error de 3% en las estimaciones y que en un estudio previo con 100 estudiantes se
encontró que 75 sabían nadar. Además se desea tener un nivel de confianza de
95%.

14. El gerente de producción desea estimar el tiempo promedio que demora cierto
proceso, como el tiempo se mide en minutos, este gerente desea tener un error
máximo de estimación, del tiempo promedio real, de a lo más 4 minutos, sabe, por
experiencias anteriores, que la desviación estándar en los tiempos de
procesamiento es de 10 minutos, qué tamaño de muestra debe tomar, si desea un
nivel de confianza del 95% para sus resultados?

15. El tiempo que tarda un proceso de ensamblaje tiene una distribución normal con
una media de 20 minutos. Para hacer más eficiente el sistema, se le pide a un
ingeniero que haga un análisis y proponga algunas mejoras. Tras implementar los
cambios sugeridos, se toma una muestra de 9 artículos y se registran sus tiempos
de ensamblaje obteniéndose un tiempo medio de 24.3 minutos con una desviación
estándar de 6 minutos.
a) ¿Se puede afirmar que los cambios implementados has disminuido el tiempo
promedio del sistema de ensamblaje? (Utilice un nivel de confianza del 95%)
b) Construya un intervalo del 90% de confianza para el tiempo medio de
ensamblaje

229
UNA La Molina - Dpto. de Estadística e Informática Estadística General

16. Se sabe que en una compañía de taxis el gasto diario promedio en combustible,
por unidad, es una variable con distribución normal, cuyo promedio es de 187.6
galones, y una desviación estándar de 32.5 galones. El gerente de operaciones
decide incluir un aditivo especial al combustible que le permitirá un ahorro en ese
rubro. Después de incluir el aditivo toma una muestra de 6 unidades y encontró los
siguientes gastos en combustible expresado en galones por día:
180.3 179.6 185.7 170.5 158.3 180.6

El gerente operativo afirma que el gasto promedio diario en combustible disminuyó


en más de 12% ¿En base a la información muestral presentada se puede aceptar
lo afirmado por el gerente operativo?

17. Una compañía telefónica está tratando de determinar si algunas líneas en una
determinada comunidad deben instalarse subterráneas. Debido a que se hará un
pequeño cargo adicional en las cuentas telefónicas para pagar los costos extras de la
instalación, la compañía ha determinado hacer un estudio entre los clientes y
proceder con la instalación subterránea solo si el estudio indica que más del 60% de
todos los clientes están a favor de la instalación.
a) Defina en forma clara el parámetro que utilizará en la prueba de hipótesis
respectiva.
b) Si 118 de 160 clientes entrevistados están a favor de esta instalación a pesar del
cargo adicional, ¿qué debe hacer la compañía? Use un =0.01
c) ¿Cuáles son las conclusiones al respecto?
d) Defina el error tipo I y error tipo II en términos del problema

18. El Dpto. de Marketing de una compañía que produce el detergente ABC encontró en
una muestra de 200 amas de casa que el 20% utiliza esta marca de detergente.
Después de una intensa campaña publicitaria, se tomó otra muestra de 300 amas
de casa la que indicó que el 27% favorece esta marca. Al 5% de significación,
¿puede el jefe del Dpto. concluir, en base a los resultados de esta muestra, que la
campaña fue exitosa?

19. Al señor Juan Pérez le han propuesto participar en una lista para el congreso, en
representación de su provincia. Para aceptar la propuesta este señor quiere estar
seguro de que al menos el 25% de los votantes en la provincia que reside están a
favor de su candidatura. Para determinar esto toma una muestra aleatoria de
tamaño n = 450 personas encontrando que 90 están a favor de su candidatura.
¿Aceptará el señor Juan Pérez participar en la lista? Considere  = 5%

20. La siguiente tabla muestra datos sobre aumento de peso corporal (grs) para una
muestra de animales de control y una muestra de animales a los que se dio una
dosis de 1 mg/pastilla de cierto esteroide diluido (los animales de control son
aquellos que no recibieron el esteroide).

Tamaño de Media Desviación


Animales
muestra muestral estándar
Control 10 40.5 4.5
Esteroide diluido 8 52.8 2.6

Suponga que el aumento de peso se distribuye normalmente tanto para animales de


control como para los que recibieron el esteroide.

a) Halle e interprete con un nivel de confianza del 98% el aumento promedio de


peso corporal de los animales que se les dio el esteroide diluido.

230
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b) Halle e interprete un intervalo de confianza del 95% la desviación estándar del


aumento de peso corporal de los animales que no recibieron el esteroide.

c) Se puede concluir que la desviación estándar del aumento de peso corporal de


los animales que tomaron esteroide es superior a 4.0 gr. Use  = 0.05.

d) Con un nivel de significación e 0.05, se puede afirmar que hubo una ganancia de
peso corporal de los animales que recibieron el esteroide con respecto a los que
no la recibieron.

21. La gerencia comercial de la empresa CEREAL S.A que se dedica a la


comercialización de cajas de cereal en supermercados, desea introducir un nuevo
producto con la finalidad de aumentar su posicionamiento en el mercado de
cereales. El nuevo producto “Cheerios” se comercializará también en bodegas,
esperando ser un producto competitivo. Con esta finalidad la gerencia comercial, ha
realizado un estudio de mercado para evaluar la competitividad y productividad de
este nuevo producto. Para el presente estudio la gerencia de comercialización se ha
planteado varios objetivos.

Con la finalidad de analizar las empresas de la competencia, se extrae una muestra


aleatoria de 12 bodegas registrando los precios de venta (en soles) del cereal
Cheerios.

4,8 5,9 6,0 6,5 5,8 5,3


4,7 4,9 4,4 6,2 5,8 5,5
a. Mantener el precio de lanzamiento. El gerente de comercialización decidirá
mantener el precio de lanzamiento del nuevo cereal Cheeris de S/. 5.5, si
comprueba que el precio promedio de venta de la competencia es al menos S/.
6.0. Usando un nivel de significación del 5%, ¿cuál será la decisión del gerente
de comercialización?.

b. El gerente de comercialización también cree que es importante analizar la


variabilidad del precio de venta de la competencia. El sospecha que la
variabilidad del precio de venta es similar a S/. 0.55. Usando un nivel de
significación de 0.05, pruebe afirmación del gerente comercial.

c. Obtener más del 60% de aceptación de Cheeris. Con esta finalidad se


aplicó una encuesta a 120 personas que compraron el cereal Cheerios, de los
cuales 36 dijeron que no seguirián comprando el cereal. Con un nivel de
significación del 4%, se puede concluir que la gerencia comercial a cumplido este
objetivo.

d. Aumentar las ventas de CEREAL S.A. La gerencia de comercialización desea


determinar si las ventas de la empresa han aumentado significativamente con el
nuevo cereal. La gerencia espera que las ventas promedio con el cereal Cheeris
sean mayores que con el cereal anterior Kereal en más de $ 30,000. A
continuación se presentan las estadísticas descriptivas de muestras aleatorias de
semanas de ventas obtenidas con el cereal Cheeris y Kereal. Con un nivel de
significación de 5%, se puede concluir que se la gerencia tienen razón. Suponga
que las ventas se distribuyen normalmente.

231
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Cereal n Media (miles Desviación


$) estándar (miles $)
Cheeris 8 120.0 12.0
Kereal 10 70.0 13.0

22. Aumentar el porcentaje de cajas vendidas de Cheeris. La gerencia comercial


afirma que el porcentaje de cajas vendidas en el segundo trimestre del cereal
Cheeris a aumentado con respecto al primer trimestre. En el siguiente cuadro se
presentan los resultados del número de cajas vendidas para el primer y segundio
trimestre, y para los cereales Cheeris y Kereal. Con un nivel de significación de
5%, pruebe la afirmación de la gerencia comercial.

Trimestre Cheeris Kereal


Primer 5000 3000
Segundo 5850 3150

232
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Cuando el tamaño de muestra aumenta, entonces se puede afirmar que la amplitud


del intervalo de confianza para la media _________________________________

2. En la estimación del tamaño de muestra, a mayor margen de error, entonces el


tamaño de muestra es _______________________________________________.

3. Si se desea contrastar la venta media con el valor 100, entonces la hipótesis


planteada para una prueba unilateral con cola a la derecha, es
__________________________

4. Cuando el tamaño de muestra aumenta, entonces se puede afirmar que la amplitud


del intervalo de confianza para la proporción _____________________________.

5. Cuando disminuye el nivel de significación, entonces la probabilidad de rechazar la


hipótesis nula __________________________

6. Mencione 2 supuestos de la prueba de hipótesis para la diferencia de medias


____________________________________________________ .

7. En una prueba unilateral para una media con cola a la izquierda, si el estadístico
tc=3.45, entonces la decisión estadística será _____________________________.

8. La probabilidad de rechazar una hipótesis nula que es falsa es ____________ y se


conoce como _____________________________.

9. Para realizar una prueba de diferencia de medias, si las varianzas son desconocidas,
se debe realizar previamente _________________________________________.

10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F


a. El nivel de confianza 95% para la media, significa que el 95% de todos
los promedios muestrales caen dentro del intervalo estimado y 5% son
errados
b. En la prueba de hipótesis, el área de la zona de aceptación de Ho es
igual a 1-α
c. La probabilidad de cometer error tipo I, se conoce como el nivel de
significación.
d. Cuando el tamaño de muestra aumenta, entonces se puede afirmar que
la amplitud del intervalo de confianza para la proporción disminuye
e. Se puede afirmar en una prueba de hipótesis de la media, que a mayor
variabilidad mayor posibilidad de rechazar la hipótesis planteada.

233
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO XI

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

El análisis de regresión lineal simple, es una técnica estadística que permite estudiar la
relación funcional entre dos variables, una de ellas es la variable dependiente Y (por
ejemplo ventas semanales) y la otra la variable independiente X (por ejemplo el gasto
semanal en publicidad).

Objetivo. Al finalizar este capítulo el estudiante debe conocer los supuestos y


estimación de parámetros en el análisis de regresión lineal simple, probar si existe
relación lineal entre dos variables y calcular el coeficiente de determinación y el
coeficiente de correlación.

11.1 Diagrama de dispersión

El diagrama de dispersión (también llamado gráfico de dispersión) muestra la relación


de dos variables de relación de intervalo en un plano de coordenadas. Sólo se muestran
los puntos. Es la primera etapa de análisis de regresión. Es una forma rápida de ver si
las variables están asociadas y la fuerza de la asociación. Un diagrama de dispersión
muestra también la dirección de la relación. Todos los puntos agrupados juntos en una
línea recta sugieren que hay una relación fuerte. Incluso si algunos puntos están fuera
de la línea, todavía puede existir una relación. Si los puntos no están agrupados y se
encuentran dispersos, están al azar y no hay ninguna relación.

234
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 1

Se presentan a continuación la población por departamentos (no se incluye Lima) y el


número de delitos registrados en el 2007, ¿existe entre la población y los números de
delitos?

Distribución del número de delitos por departamento en el 2007


Población
Departamento N° de delitos
(en miles)
Amazonas 376.0 811
Ancash 1,063.5 4 503
Apurímac 404.2 1 125
Arequipa 1,152.3 9 188
Ayacucho 612.5 2 185
Cajamarca 1,387.8 2 292
Cusco 1,171.4 4 065
Huancavelica 454.8 22
Huánuco 762.2 988
Ica 711.9 2 548
Junín 1,225.5 1 710
La Libertad 1,617.1 9 763
Lambayeque 1,112.9 8 474
Loreto 891.7 3 485
Madre de Dios 109.6 1 387
Moquegua 161.5 1 439
Pasco 280.4 331
Piura 1,676.3 5 518
Puno 1,268.4 1 607
San Martín 728.8 1 338
Tacna 288.8 1 080
Tumbes 200.3 1 529
Ucayali 432.2 2 856
Fuente: INEI y Ministerio del Interior

Gráfica de dispersión de Delitos vs. Población


10000

8000

6000
Delitos

4000

2000

0 200 400 600 800 1000 1200 1400 1600 1800


Población

Fuente: Elaboración propia

Correlación de Pearson de Población y Delitos = 0.659

235
UNA La Molina - Dpto. de Estadística e Informática Estadística General

11.2 El Modelo de Regresión Lineal Simple

El modelo de regresión lineal simple es definido por:

Yi   0   1 X i   i , i  1,2,3,, n (1)
Donde:

 Y es la variable dependiente o variable respuesta.


 X es la variable independiente, explicativa o de predicción.
  0 es el coeficiente de intersección paramétrico. Es el valor de Y cuando X=0.
  1 es el coeficiente de regresión paramétrico. Es la pendiente del modelo de
regresión.
  i es el error o residual.

11.3 Supuestos del análisis de regresión lineal simple

Los supuestos del análisis de regresión lineal simple son los siguientes:

 La variable independiente X es fija (no aleatoria).


 La variable dependiente Y es aleatoria.
 Para cada valor de X existe una distribución normal de Y.
 El  i ~ N ( 0 ,  2 ) para i = 1,2,3,...,n. Además:

ε i es independiente de ε j para i¹j


ε i es independiente de X

En consecuencia:

 Y . X  E Yi   E   0   1 X i   i    0   1 X i  E  i    0   1 X i
Var Yi   Var   0   1 X i   i   Var  i    2

Notar que  1 mide el cambio en el promedio  Y . X ante el cambio en una unidad de X.

11.4 Estimación por el método de mínimos cuadrados

El método de mínimos cuadrados consiste en minimizar la suma de cuadrados del error.

Del modelo de regresión lineal simple (1) se obtiene:

 i  Yi   0   1 X i , por lo tanto:

n n
Q    i2   Yi   0   1 X i 
2

i 1 i 1

Los estimadores mínimos cuadráticos de los parámetros  0 y  1 , digamos b0 y b1 , se


deben obtener, primero derivando Q con respecto a  0 e igualando a cero y luego
derivando Q con respecto a  1 e igualando a cero. Con el procedimiento anterior se
obtienen las siguientes ecuaciones (denominadas ecuaciones normales).

236
UNA La Molina - Dpto. de Estadística e Informática Estadística General

n n
n b0  b1  xi   yi
i 1 i 1
n n n
b0  xi  b1  xi2   xi yi
i 1 i 1 i 1

Resolviendo las ecuaciones normales se obtienen los coeficientes estimados::

SP( XY )
b1  b0  y  b1 x
SC ( X )
( xi )2
n
2
Suma de cuadrados de X: SC ( X )   ( xi  x)   x    xi2  n x
2 2
i
i 1 n
n ( xi )( yi )
Suma de productos X e Y: SP( XY )   ( xi  x)( yi  y )   xi yi    xi yi  n x y
i 1 n

De tal manera que b0 estima a  0 y b1 estima a  1 . Es decir: ˆ0  b0 y ˆ1  b1

Interpretación de los coeficientes de regresión:

ˆ0  b0 Mide el valor promedio de Y, cuando X es igual a cero.

Mide el cambio (aumento, si es positivo o disminución, si es negativo)


ˆ1  b1
promedio de Y, cuando X se incrementa en una unidad.

11.5 Recta de regresión estimada

El modelo estimado o ecuación de regresión estimada es: Yˆi  b0  b1 X i , i  1,2,..., n

La ecuación de la recta Yˆi  b0  b1 X i estima a Y . X  0  1 X i , además:

     
Yi  y  b1 x  b1 X i  y  b1 X i  x  Yi  y  b1 X i  x , es el efecto de la regresión.

El error estimado es: ei  Yi  Yˆi y estima a  i  Yi  Y . X

550
500

450
400
Precio

350
300
Yˆi
250 ei
200
150 Yi
100
0 5 10
Captura

237
UNA La Molina - Dpto. de Estadística e Informática Estadística General

11.6 El análisis de la variancia en la regresión lineal simple

El Análisis de la variancia (ANVA) consiste en la descomposición de la variación total o


 2
  y
n 2
suma de cuadrados total 

SC  T   SC  Y   
i 1
yi  y 2
i  n y  en sus fuentes

de variación que en este caso son la suma de cuadrados de la regresión y la suma de
cuadrados del error.

Para un valor Xi se deduce que:

  
yi  y  Yˆi  y  yi  Yˆi  De donde se obtiene:

y  y  Yˆ  y    y  Yˆ 
i i i i

En la segunda igualdad anterior se aprecia que la desviación total ( yi  y ) es igual a la


desviación debido a la regresión Yˆi  y   más el error estimado  y  Yˆ  .
i i
Elevando al
cuadrado ambos lados de esta segunda igualdad, aplicando sumatorias y simplificando
se obtiene:

     
n 2 n 2 n 2
yi  y   Yˆi  y   yi  Yˆi
i 1 i 1 i 1

La expresión indica, que la suma de cuadrados total (SCT) se descompone en la suma


de cuadrados debido a la regresión (SCR) más la suma de cuadrados del error (SCE).

Haciendo los reemplazos y las simplificaciones correspondientes se obtienen las


expresiones de las sumas de cuadrado de la regresión, total y error o residual.


SCR   Yˆi  y 
2

 b12  xi  x 2
b1 SP( XY )  b12 SC ( X )

( yi ) 2 2
SCT  SC (Y )   y  2
i   yi2 n y
n
SCE  SCT  SCR
Con la información anterior se construye el siguiente cuadro del ANVA.

Cuadro del ANVA

Fuente de Grados de Suma de Cuadrado F calculado


variación Libertad Cuadrados Medio
(GL) (SC) (CM)
Regresión 1 SCR CMR Fc
Error n-2 SCE CME
Total n-1 SCT

Prueba de hipótesis

H p : 1  0 ( No hay relación lineal entre X e Y )


H a : 1  0 ( Si hay relación lineal entre X e Y )

238
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Prueba Estadística

SC ( R) /  2  2 1
CM ( R)
Fc  1  2 1   F 1, n  2
SCE /  2
  n  2 CME
n2 n2

FTab  F1 ;1,n 2

Decisión estadística

De acuerdo a la hipótesis alternativa la prueba es unilateral a la derecha por lo tanto:

 Si Fc es mayor que Ftab se rechaza la Hp.


 Si Fc es menor o igual que Ftab no se rechaza la Hp.

11.7 Coeficiente de determinación y de no determinación

El coeficiente de determinación (r2) mide la proporción o porcentaje de la variación total


de Y que es explicada por el modelo de regresión y el coeficiente de no determinación
(1 - r2) mide la proporción o porcentaje de la variación total de Y que no es explicada
por el modelo de regresión.

SCR ( SP( XY )) 2
r2  x100  x100 , 0  r 2  100%
SCT SC ( X ) xSC (Y )

11.8 Coeficiente de Correlación Lineal

El coeficiente de correlación lineal r mide la fuerza de la relación lineal entre valores


cuantitativos de dos variables. También se le conoce como coeficiente de correlación de
Pearson, en honor a Karl Pearson quien lo desarrolló originalmente.

𝑛 ∑ 𝑥𝑦 − (∑ 𝑥)(∑ 𝑦)
𝑟=
√𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 √𝑛(∑ 𝑦 2 ) − (∑ 𝑦)2

SP  XY 
r , 1  r  1
SC  X  SC Y 

El valor de r siempre está entre -1 y +1, inclusive.

 Si r > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de
la otra). La correlación es tanto más fuerte cuanto más se aproxime a +1. Por
ejemplo: altura y peso: los alumnos más altos suelen pesar más.
 Si r < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye
el de la otra). La correlación negativa es tanto más fuerte cuanto más se aproxime a
-1. Por ejemplo: peso y velocidad: los alumnos con más peso suelen correr menos.
 Si r = 0, no existe correlación lineal entre las variables. Aunque podría existir otro
tipo de correlación (cuadrática, exponencial, etc.)

239
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 1

En cierto país se estudió la captura de anchoas, en millones de toneladas métricas, (X),


y los precios de harina de pescado, en dólares por tonelada, (Y) para los últimos 13
años.

Y 190 160 134 129 172 197 167 239 542 372 245 376 454
X 7.23 8.53 9.82 10.26 8.96 12.27 10.28 4.45 1.78 4.00 3.30 4.30 0.80

600

500

400
Precio

300

200

100
0 2 4 6 8 10 12
Captura

Cálculos previos

13 13 13 13 13

 xi  85.98,
i 1
 xi2  732.2376,
i 1
 yi  3377,
i 1
 yi2  1089365
i 1
 x y  17357.8
i 1
i i

SC  X    x 2

 x  i
2

 163.5791
i
n

SC Y    yi2 
 y i  2  212124.3077
n

SP  XY    xi yi 
x y i i
 4977.1585
n

a) Halle la línea de regresión estimada. Interprete el coeficiente estimado de


intersección y el coeficiente estimado de regresión.

SP  XY 
b1   30.4266
SC  X 
13
 13 
 yi
  xi 
b0  y  b1 x  i 1
  b1   i 1   461.0062
13  13 
 
 

La línea estimada es:


Yˆi  461.0062  30.4266 X i
El coeficiente de intersección estimado, b0  461.0062 , representa el precio
promedio de harina de pescado cuando no hay captura de anchoas.

240
UNA La Molina - Dpto. de Estadística e Informática Estadística General

El coeficiente de regresión estimado, b1  30.4266 , indica que el precio promedio


de harina de pescado disminuye en 30.4266 dólares por tonelada, cuando se
incrementa en un millón de toneladas métricas la captura de anchoas.

b) ¿Hay relación lineal entre X e Y? Utilice   0.01

SC ( R)  b12 SC ( X )  b1SP( XY )  151438.075


SC  Error   SC Y   SC  R   60686.2327
Tabla de ANVA
Fuente de variación G. L. S. C. C. M. F calculado
Regresión 1 151438.0750 151438.075 27.45
Error 11 60686.2327 5516.9302
Total 12 212124.3077

Prueba de hipótesis
H p : 1  0 ( No hay relación lineal entre X e Y )
H a : 1  0 ( Si hay relación lineal entre X e Y )

Como  Fc  27.45   F0.01,1,11  9.65 entonces se rechaza la hipótesis planteada


por lo tanto hay evidencias estadísticas para concluir que existe relación lineal
entre X e Y.

c) Estime el precio promedio de harina de pescado (en dólares por tonelada) para una
captura de 5 millones de toneladas métricas de anchoas.

La línea estimada es: Yˆi  461.0062  30.4266 X i

Por la tanto, como Xi=5, se tiene: Yˆ  461.0062  30.4266 * 5  308.8732

El precio promedio de harina de pescado es de $ 308.9 para una captura de 5


millones de toneladas métricas de anchoas.

d) Calcule e interprete el coeficiente de determinación y el coeficiente de correlación.

Coeficiente de determinación
 SP  XY    0.7139 71.39%
2
SC  R 
2
r    
SC Y  SC  X  SC Y 

Indica que el 71.39% de la variación de los precios es explicada por la regresión.

Coeficiente de correlación
SP  XY 
r  0.84
SC  X  SC Y 

Se puede afirmar que hay una alta asociación negativa entre X e Y en otras
palabras cuando aumenta una de ellas disminuye la otra.

241
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Regression Analysis: Precio versus Captura

The regression equation is


Precio = 461 - 30.4 Captura

Predictor Coef SE Coef T P


Constant 461.01 43.59 10.58 0.000
Captura -30.427 5.807 -5.24 0.000

S = 74.28 R-Sq = 71.4% R-Sq(adj) = 68.8%

Analysis of Variance

Source DF SS MS F P
Regression 1 151438 151438 27.45 0.000
Residual Error 11 60686 5517
Total 12 212124

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI


1 308.9 22.6 ( 259.1; 358.7) ( 138.0; 479.8)

Values of Predictors for New Observations

New Obs Captura


1 5.00

242
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 1. Se desea estudiar la tasa de flujo Y (en m3 / min ) de un dispositivo para


medir la calidad del aire en función de la caída de presión X (en mm de agua) a través
del filtro del dispositivo. Se tomó una muestra de 10 mediciones encontrándose los
siguientes datos:
Y 0.6 0.7 0.8 1.0 1.1 1.2 1.4 1.8 2.2 2.6
X 127 178 229 254 330 381 406 432 457 507

Asumiendo que se cumplen los supuestos respectivos

a) Estime la línea de regresión. Interprete los coeficientes.

b) ¿Hay relación lineal entre estas variables? Use   0.05 .

243
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c) Calcule e interprete el coeficiente de determinación.

d) Estime la tasa de flujo promedio para una caída de presión de 400 mm de agua.

e) Halle e interprete el coeficiente de correlación.

244
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 9

En una región de pastizales en la sierra norte del país se estudiaron 4 áreas en los
últimos doce años para valores de cantidad de lluvia (mm) y se midió la productividad
primaria neta del pastizal (ppn). El objetivo de la investigación es predecir la
productividad primaria neta del pastizal. Los datos de la evaluación se presentan a
continuación:

Cantidad de lluvia
anual (mm) 203 242 303 320 473 645 674 687 848 1045 1057 1131
ppn
[g/m²/año] 59 88 116 141 196 278 407 488 644 696 812 832

12 12 12
 xi  7628
i 1
 yi  4757 x 2
i  6067520
i 1 i 1

12 12

 yi2  2814775
i 1
x y
i 1
i i  4067841

a) Estime la ecuación de regresión e interprete sus coeficientes.

b) ¿Existe relación lineal entre la lluvia anual y la productividad del pastizal (ppn)?
Use α=0.05.

245
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c) ¿Qué porcentaje de la variabilidad de la productividad primaria neta del pastizal es


explicada por la regresión?

d) Calcule e interprete el coeficiente de no determinación.

e) Estime la productividad primaria neta del pastizal cuando la cantidad de lluvia


anual es de 980 mm.

f) Obtenga y analice la correlación entre la cantidad de lluvia anual y la productividad


primaria neta del pastizal (ppn).

246
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. Una investigación de la relación entre el flujo de tránsito X (en miles de


automóviles por 24 horas) y el contenido de plomo Y de la corteza de árboles cerca
de la autopista (ug/gr de peso en seco) produjo los datos siguientes:

X 8.3 8.3 12.1 12.1 17.0 17.0 17.0 24.3 24.3 24.3 33.6
Y 227 312 362 521 640 539 728 945 738 759 1263

a) Obtenga la línea de regresión estimada. Interprete el coeficiente estimado de


intersección y el coeficiente estimado de regresión. Tiene interpretación
práctica el coeficiente de intersección estimado.
b) ¿Existe relación lineal entre X e Y? Utilice   0.05 .
c) Calcule e interprete los coeficientes de determinación y de correlación.

2. Se ha realizado un estudio para establecer una ecuación mediante la cual se pueda


utilizar la concentración de estrona en la saliva pg/ml (X), para predecir la
concentración del esteroide en el plasma pg/ml (Y). Para el estudio se extrae una
muestra aleatoria de 12 varones sanos y se obtienen los siguientes cálculos previos

Σ Xi = 173 ΣX2i = 2,728.5 Σ Yi = 578.5 ΣY2i = 29,734.25


ΣXi Yi = 8,959.25
a) Calcule e interprete los coeficientes estimados para la regresión lineal simple
entre X e Y.
b) Pruebe con un nivel de significación de 0.05, si existe relación lineal entre X e Y.
c) Predecir la concentración del esteroide en el plasma, cuando se tiene una
concentración de estrona en la saliva de 18 pg/ml.

3. Se estudia, en un proceso químico, el tiempo de reacción Y (en horas) y la


temperatura X (en °C) de la cámara donde tiene lugar la reacción. Se tomó una
muestra de 10 mediciones encontrándose:

X 82 84 86 91 93 94 99 110 115 125


Y 3.10 2.98 3.09 2.92 2.80 2.93 3.10 2.70 2.84 2.83

Asumiendo que se cumplen los supuestos respectivos

a) Estime la línea de regresión. Interprete los coeficientes.


b) ¿Hay relación lineal entre estas variables? Use   0.05
c) Calcule e interprete el coeficiente de determinación.
d) Obtenga e interprete el coeficiente de correlación.
e) Estime el tiempo promedio de reacción para una temperatura de 120 °C.
f) Descomponga el efecto total de la medición 8 en sus efectos respectivos.

4. En un centro de salud se han tomado los datos de las edades y la Presión Sistólica
de 12 pacientes, bajo la sospecha de que la edad y la presión estaban relacionadas
de alguna manera. Los datos que se tomaron son los siguientes.

Edad (X) 56 42 72 36 63 47 55 49 38 42 68 60
Presión sistólica (Y) 147 125 160 118 149 128 150 145 115 140 152 155

a) Obtenga el Diagrama de Dispersión y comente los resultados.


b) Calcule la ecuación de regresión estimada e Interprete el valor de cada uno de
los coeficientes de la recta anterior.
c) Calcule e interprete el valor del coeficiente de determinación.
d) ¿Puede Ud. afirmar que la pendiente de la recta es significativamente distinta de
cero, con  = 0,05?

247
UNA La Molina - Dpto. de Estadística e Informática Estadística General

5. Se hizo un estudio con yeguas de los niveles de progesterona en la sangre (X) y en


heces (Y), estos niveles se expresan en ng/ml donde ng = nanogramos.

X 8.37 6.09 5.81 8.86 6.21 0.38 0.31


Y 10.74 10.75 9.85 10.85 10.00 4.31 1.30

a) Estime la línea de regresión. Interprete los coeficientes.


b) ¿Hay relación lineal entre estas variables? Use   0.05 .
c) Calcule e interprete el coeficiente de determinación.
d) Poner el efecto total 5 en términos del efecto de la regresión y el error.

7. El banco “Préstamo” estudia la relación entre las variables Ingresos (X) y ahorros
(Y) mensuales de sus clientes. Una muestra aleatoria de de sus clientes revelo los
siguientes datos.

X 1200 1380 1550 1725 3278 2932 2415 3105 2070


Y 345 380 450 552 1210 1225 870 1104 450

a) Estime la recta de regresión.


b) Utilice la recta estimada para pronosticar el valor del ahorro cuando el ingreso
sea de 2800 soles.
c) ¿Se puede afirmar que existe una relación lineal significativa entre los ingresos y
el ahorro? A un nivel de significación del 5%
d) ¿Qué porcentaje de la variación muestral se puede atribuir a la relación del
modelo?

8. Una empresa en consultoría contable desea desarrollar un modelo que le permita


predecir el costo de la auditoría en función del número de documentos revisados.
Para este fin extrae una muestra de 12 auditorías, registrando el costo de la
auditoría (miles $) y el número de documentos revisados (miles documentos).

Número de 28 17 32 48 6 14 19 24 34 22 20 46
documentos (miles
documentos)
Costo de la auditoría 50 35 65 98 12 24 38 45 65 45 36 85
(miles $)

a) Analice el diagrama de dispersión. ¿Qué se puede afirmar acerca de la relación


entre el número de documentos revisados y el costo de la auditoría?.
b) Interprete los coeficientes de regresión. Presente la ecuación estimada.
c) Pruebe con un nivel de significación de 5%, si existe relación lineal entre el
número de documentos revisados y el costo.
d) Halle e interprete el coeficiente de determinación
e) Estime el costo promedio de la auditoría cuando se revisen 25,000 documentos.
f) Halle e interprete el coeficiente de determinación.

9. Las materias primas empleadas en la producción de una fibra sintética son


almacenadas en un lugar donde no se tiene control sobre la humedad. Las
mediciones de la humedad relativa en el lugar de almacenamiento (x) y la
humedad de una muestra de las materias primas (y) (ambas en porcentaje) para
12 días se presenta en la siguiente tabla.

Humedad en el 42 35 50 43 48 62 31 36 44 39 55 48
almacenamiento (%)
Humedad en la 12 8 14 9 11 16 7 9 12 10 13 11
materia prima (%)

248
UNA La Molina - Dpto. de Estadística e Informática Estadística General

a) Analice el diagrama de dispersión. ¿Qué se puede afirmar acerca de la relación


entre la humedad de almacenamiento y la humedad en la materia prima?.
b) Interprete los coeficientes de regresión. Presente la ecuación estimada.
c) Pruebe con un nivel de significación de 5%, si existe relación lineal entre la
humedad de almacenamiento y la humedad en la materia prima.
d) Estime la humedad promedia de la materia prima, cuando se tiene una humedad
de almacenamiento de 45%.
e) Halle e interprete el coeficiente de determinación
f) Pruebe con un nivel de significación de 5%, si existe correlación entre la
humedad de almacenamiento y la humedad de la materia prima.

10. Se cuenta con información de una muestra de 10 fondos de inversión, respecto a su


rentabilidad porcentual para un periodo de doce meses y el activo total (en millones
de $). Los datos se presentan en la siguiente tabla.

Activo total 22 18 14 8 26 10 16 19 20 7
(millones $)
Rentabilidad 29.3 17.6 16.0 9.5 22.6 12.4 18.5 21.4 18.2 12.5
(%)

a) Analice el diagrama de dispersión. ¿Qué se puede afirmar acerca de la relación


entre el activo total y rentabilidad del fondo de inversión?.
b) Interprete los coeficientes de regresión. Presente la ecuación estimada.
c) Pruebe con un nivel de significación de 5%, si existe relación lineal entre el
activo total y la rentabilidad.
d) Estime la rentabilidad promedia, cuando se tiene un activo de 18 millones de
dólares.
e) Halle e interprete el coeficiente de determinación
f) Pruebe si existe correlación entre el activo total y la rentabilidad. Use un nivel de
significación de 5%.

11. El gerente de ventas permite que los agentes vendedores que tiene a su cargo reciban
charlas para motivarlos, dichas charlas se dan en diferentes horarios y los agentes
tienen absoluta libertad para elegir el horario que crean conveniente. El gerente cree
que dichas charlas influyen en la eficiencia de las ventas. Para verificar esto toma una
muestra de 10 vendedores y determinó el tiempo acumulado de horas en las que
estuvo presente en una o más charlas durante el último trimestre y la eficiencia de sus
ventas, los datos encontrados fueron:

Tiempo acumulado (Horas) 27 45 41 19 35 39 19 49 15 31


Eficiencia en las ventas (%) 47 84 80 46 62 72 52 87 37 68

a)¿Es posible afirmar que existe una relación lineal entre el número de horas de charla
y la eficiencia en las ventas?. Use un α=0.05.
b) Interprete adecuadamente el coeficiente de regresión.
c) El Gerente de ventas afirma que cuando un agente vendedor recibe charlas esto
permite un mejor desempeño en sus nivel de ventas y cree además que por cada
hora adicional de charla su rendimiento se incrementa en más de un punto
porcentual. Utilizando un nivel de significación del 5% ¿Qué puede concluir con
respecto a la afirmación que hace el gerente de ventas?.

249
UNA La Molina - Dpto. de Estadística e Informática Estadística General

12. En ocasiones es conveniente comprar la mayor cantidad posible de ciertos artículos.


Por lo general el precio unitario es menor al adquirir grandes cantidades. Para
contrastar esta teoría se obtuvieron los siguientes datos:

Número de Unidades (X) 1 3 5 10 12 15 24


Costo Unitario (Y) $ 55 52 48 36 32 30 25

a) Interprete el coeficiente de regresión estimado.


b) ¿Qué % de la variabilidad en el costo no es explicada por la recta de regresión?
c) ¿Es la pendiente de la recta diferente de cero significativamente?. Use un
α=0.05.
d) Estime el costo promedio unitario cuando se compran 40 unidades.
e) Es posible afirmar, en base a la información muestral obtenida y utilizando un
nivel de significación del 5%, que por cada unidad adicional que se compre el
precio del artículo disminuye en más de $1,2. Use un α=0.05.

13. Un banco quiere determinar la relación entre las variables Ingresos mensuales
(variable independiente) y Ahorros mensuales (variable dependiente) de sus
clientes. Para esto, selecciona una muestra aleatoria de seis clientes y obtiene los
siguientes resultados:
Y: Ahorros
X: Ingresos mensuales mensuales
1.0 0,20
1,2 0,22
1,5 0,25
0,8 0,18
1,8 0,30
2.0 0,35

a) Halle la ecuación de regresión e interprete sus coeficientes.


b) Calcule el coeficiente de determinación e interprételo.
c) Utilice el modelo de regresión desarrollado para predecir los ahorros mensuales
si el ingreso mensual de su cliente es de 2500 soles.
d) Plantee las hipótesis respectivas y diga si el modelo hallado es significativo o
no. Utilizar un nivel de significancia del 5%.

14. Una compañía de productos químicos desea analizar si la eficiencia en una


operación de extracción está influenciado por el tiempo de extracción.

Tiempo (minutos x) 27 45 41 19 35 39 19 49 15 31
Eficiencia (% Y) 47 84 80 46 62 72 52 87 37 68

n  10 x i  320 x2
i 11490 y i  635 y 2
i 43075 x yi i  22095
a) Determine la ecuación de la regresión entre la eficiencia y el tiempo de extracción.
Interprete el coeficiente de regresión estimado.

b) Pruebe si existe una relación lineal entre las variables. Use un nivel de significación
del 5%.

c) ¿Qué porcentaje de la variabilidad de la eficiencia de la operación de extracción es


explicada por la regresión?

d) Estime la eficiencia de operación de extracción cuando el tiempo de extracción es


de 55 minutos.

250
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. El gráfico que permite visualizar la existencia de una posible relación lineal entre la
variable X e Y, se conoce como _______________________________________ .

2. El método de estimación para estimar los coeficientes de regresión β0 y β1, se


conoce como _____________________________________ .

3. En el análisis de regresión lineal simple, el valor que mide el cambio o variación en


la variable Y, cuando la variable X aumenta en una unidad, se conoce como
____________________________.

4. Uno de los supuestos del análisis de regresión es que la variable X se considera un


valor ______________, en cambio la variable Y se considera ________________.

5. Para probar si existe una relación lineal entre las variables X e Y en un análisis de
regresión, la hipótesis nula formulada es ____________________________ .

6. El rango en que varía el coeficiente de determinación es ______________________

7. Si el coeficiente de correlación estimado se aproxima a 1, indica que existe una


correlación ______________________, si se aproxima a -1, __________________
y se aproxima a cero __________________________ entre las variables X en que
varía el e Y.

8. La ecuación estimada en un análisis de regresión entre la ventas (Y) en miles de $


sobre los años de experiencia de los vendedores (X) en años, resultó: Y = 250 –
1.2X. Entonces el coeficiente de regresión se interpreta como
_________________________________________________________________.

9. La interpretación del coeficiente de correlación entre el peso y la talla de una


muestra de 12 estudiantes cuyo valor fue igual a – 0.88, es
____________________________________________________________.

10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F


a. El coeficiente de determinación mide el porcentaje de la variabilidad de
X que es explicada por la regresión.
b. Los coeficientes de regresión estimados, asumen como unidad de
medida la de la variable dependiente (Y).
c. El rango del coeficiente de correlación es [-1, 1] .
d. El coeficiente de regresión estimado b1, no puede tomar un valor
negativo.
e. El cuadro del ANVA, muestra la descomposición de la variabilidad de la
variable Y, en dos fuentes (regresión y error).

251
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Bibliografía

1. Anderson, D. y Sweeney, D. y Williams, T. (2008). Estadística para Administración y


Economía (10a. ed.) México: Cengage Learning Editores.
2. Daniel, W. (2004). Bioestadística: base para el análisis de las ciencias de la salud
(4ta. ed.). México: Limusa. Grupo Noriega editores.
3. Johnson, R. y Kuby, P. (2008). Estadística elemental: lo esencial (10ma. ed.).
México: Cengage Learning Editores.
4. Levin, R y Rubi, D.(2004). Estadística para Administración y Economía (7ma. ed.)
México: Pearson Educacion. Prentice Hall.
5. Montgomery, D. y Runger, G. (2002). Probabilidad y Estadística aplicadas a la
ingeniería (2da. ed.). México: Editorial Limusa. Grupo Noriega editores.
6. Newbold, P. y Carlson, W. y Thorne, B. (2008). Estadística para Administración y
Economía (6ta. ed.) Madrid: Pearson Education. Prentice Hall.
7. Miranda, F. & Salinas, J. & Otros. (2012). Estadística General. Lima: Universidad
Nacional Agraria La Molina.
8. Triola, M. (2009). Estadística (10ma. ed.). México: Pearson Educacion. Adisson.

252
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Anexo N° 1

TABLAS ESTADÍSTICAS

Distribución Normal Estándar


Distribución Chi-Cuadrado
Distribución t
Distribución F

253

También podría gustarte