Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FACULTAD DE CIENCIAS
DEPARTAMENTO ACADÉMICO DE ESTADISTICA
MODULO
ESTADISTICA INTERACTIVA
TEORIA Y APLICACIONES
lalin_min73@hotmail.com
rmincholaa@unp.edu.pe
2021
ESTADISTICA
CONCEPTOS BASICOS
POBLACION(N). Es el conjunto de individuos, animales o cosas que se desea estudiar o también
se dice que es el conjunto de todos los valores que asumen los individuos respecto de una
variable de interés.
La población puede ser finita, si tiene un número finito de elementos, caso contrario será
infinita. En la práctica una población finita con un gran número de elementos se considera
como infinita.
UNIDAD ELEMENTAL O UNIDAD DE ANALISIS (EXPERIMENTAL). Son los elementos que
conforman la población que poseen la característica o variable de estudio.
DATO. Es resultado (valor) de medir una característica observable de una unidad elemental.
PARAMETRO. Se denomina parámetro a una medida descriptiva que resuma una característica
de la población, tal como la media (µ) o la varianza (), calculada a partir de los datos
observados de toda la población.
MUESTRA (n). Se denomina muestra a una parte de la población seleccionada de acuerdo
con un plan o regla, con el fin de obtener información acerca de la población de la cual
proviene.
La muestra debe ser seleccionada de manera que sea representativa de la población. Un
método de selección de muestras representativas es al azar simple, esto es, cada elemento de
la población tiene la misma posibilidad de ser seleccionada para la muestra.
Después de definir la investigación estadística a realizar, se debe decidir entre investigar toda
la población o sólo una parte de ella. El primer procedimiento es denominado censo y el
segundo es llamado muestreo.
ESTADISTICA O ESTADIGRAFO. Se denomina estadística a una medida descriptiva que resuma
una característica de la muestra, tal como la media ( x ) o la varianza ( s 2 ) calculada a partir de
los datos observados de una muestra aleatoria.
VARIABLES ESTADISTICAS. Se denomina variable estadística a una característica definida en
la población por la tarea o investigación estadística, que puede tomar dos o más valores
(cualidades o números).
Se representa por una letra del alfabeto: X, Y, Z, etc... Por ejemplo, en la población
constituida por los empleados de la universidad UNP, algunas variables estadísticas definidas
en ésta población son:
X: "sexo". Valores: Masculino, Femenino
Y: "estado civil". Valores: Soltero, casado, viudo, divorciado
Z: "número de hijos", Valores: 0, 1, 2, etc.
W: "ingresos mensuales", Valores: Números reales positivos.
Si una variable se denota por X, entonces, sus valores observados en n unidades estadísticas
se denotan por x1 , x 2 ,..., x n , conforme al orden en que se han obtenido. Este conjunto de n
observaciones constituye una muestra de tamaño n obtenida de una población.
Clasificación de variables
Las variables se clasifican en cualitativas y cuantitativas.
A) Variable cualitativa, es una característica no numérica, la cual expresa una cualidad. Esta
variable se puede codificar pero esto no indica que sea una variable numérica, por ejemplo:
X: sexo, Y: profesión, Z: estado civil, W: orden de méritos, etc... Con sus valores, que son
cualidades, no se pueden realizar operaciones aritméticas.
Las variables cualitativas se clasifican a la vez en ordinal y nominal:
Variable cualitativa ordinal, expresa un orden dentro de sus categorías, ejemplo: X: orden
de merito, Y: clase social, etc.
Variable cualitativa nominal, no interesa el orden dentro de sus categorías, ejemplo: X:
sexo, Y: profesión, Z: estado civil, etc.
B) Variable cuantitativa, es una característica numérica cuyos valores se expresan en escalas
de intervalo (puede ser cualquier número real), por ejemplo:
X: temperatura, Y: número de hijos, Z: ingresos mensuales, W: tiempo de vida útil, etc... Con
sus valores, que son números, se pueden realizar operaciones aritméticas.
Las variables cuantitativas, a su vez, se clasifican en: discretas, y continuas.
Variable discreta, es aquella variable cuantitativa que puede tomar sólo ciertos valores en
un intervalo considerado y no admite ningún valor entre dos valores consecutivos fijos.
Generalmente, es una variable cuyos valores se obtienen por conteo (números naturales). Por
ejemplo: X: número de hijos, Y: numero de hermanos, Z: numero de productos defectuosos,
etc.
Variable continua, es aquella variable cuantitativa que puede tomar cualquier valor en el
intervalo considerado, por ejemplo: X: salario, Y: tiempo, Z: peso,
W: volumen, V: longitud, etc.
Una variable continua puede pues tomar infinitos valores intermedios en un intervalo dado.
Para fines prácticos los valores numéricos de las variables continuas siempre son valores
aproximados.
Las técnicas y métodos que emplea la estadística con la finalidad de conseguir su objetivo
sirven para:
I. (Estadística Descriptiva o Deductiva)
- Recoger y organizar datos de las características observadas en la población.
-Esquematizar el comportamiento de la población, con relación a determinadas
características, mediante tablas, gráficos o dibujos.
-Resumir la información en pocos datos representativos.
-Analizar la relación de independencia entre características de una misma población.
II. (Estadística Inferencial o Inductiva)
-Predecir el comportamiento de las poblaciones mediante una parte de ella.
-Efectuar contrastes de significación de las diferencias entre dos grupos de observaciones.
-Estudiar la fiabilidad y validez de hipótesis estadística.
PROCESO ESTADISTICO.
Es el conjunto de operaciones destinadas a resolver un problema en el que intervienen una o
más variables estadísticas. Sus fases son:
I. Fase de planificación.
Tiene varias etapas.
1) Planteamiento del problema y clarificación del objetivo que se persigue. Un
problema mal planteado nos puede conducir a la obtención de datos innecesarios, a no
considerar datos relevantes para nuestro fin o a la toma de decisiones que nos alejen del
objetivo previsto.
2) Determinación de variable o variables que intervienen en la consecución del objetivo.
Deben definirse correctamente las variables a estudiar para evitar ambigüedades.
3) Identificación del conjunto de unidades de investigación. Determinar cuál es el tipo de
elementos de los que hemos de extraer los datos y delimitar de este modo el colectivo.
4) Selección de la muestra. Cuando la población es muy grande se acude a una parte de
esta La cual debe ser representativa para que las conclusiones tengan validez. Para lo cual se
plantea lo siguiente:
a) Que tamaño debe tener la muestra.
b) Como elegir de la población los datos muestrales.
II. Fase de ejecución.
Comprende la obtención de los datos para su posterior descripción y análisis. Los métodos
más frecuentes para la recogida de datos son.
a) Directamente (fuentes primarias de información), por observación o medida, a través de
encuestas personales, telefónicas o por correo, o mediante cuestionarios o tests. Las
encuestas disponen de un cuestionario con preguntas que pueden ser abiertas (dejan libre la
respuesta del encuestado) o cerradas (el encuestado debe decidir entre varias respuestas que
se le ofrecen).
b) Indirectamente (fuentes secundarias de información), utilizando los datos obtenidos
anteriormente por organismos oficiales, como los censos, o las estadísticas.
1) Descripción de los datos muestrales. Una vez recogidos los datos, se seleccionan
eliminando los obtenidos incorrectamente, se ordenan para disponerlos en tablas y se
construyen representaciones graficas. Finalmente resumimos los datos en unos pocos valores
o características descriptivas que proporcionen la máxima información posible sobre la
muestra, u obtener valores aproximados de las características poblacionales.
2) Análisis de los datos. Se centra en la estimación de valores de la población a partir de
los datos observados, en el contraste de las hipótesis y, en general en la toma de decisiones
mediante la base conceptual y metodológica que ofrece el cálculo de probabilidades.
III. Conclusiones e información.
Tanto las conclusiones como la información sirven para tomar decisiones sociales, políticas,
empresariales, etc. Además las conclusiones, pueden servir como base experimental para
futuras investigaciones o trabajos.
Organización y presentación de los datos: Distribución de frecuencias.
Después de la recopilación de los datos, es necesario resumirlos y presentarlos en forma tal,
que faciliten su comprensión y su posterior análisis y utilización. Para ello, se ordenan en
cuadros numéricos y luego se representan en gráfico.
Un cuadro debe tener las siguientes partes:
- Numero del cuadro
- Un título adecuado para evitar confusiones y para expresar brevemente su contenido (un
buen titulo que debe responder las preguntas: ¿que?, ¿Dónde?, ¿Cómo? o ¿según? y
¿Cuándo?).
- La fuente de los datos, si no son datos propios.
- El cuerpo
- la matriz.
Los cuadros numéricos de una sola variable estadística se denominan distribución de
frecuencias (cuadros invariantes).
En el procedimiento para construir distribuciones de frecuencias nos referiremos a
muestras, mientras no se diga lo contrario.
Esquema de un cuadro univariante:
Tabla Nº1 -----
Titulo:……………………………………..
…………………………………………………………………..
Variable Frecuencias
X
Cuerpo
Total
Fuente:
Esquema de una grafica:
Grafica Nº……….
Titulo:…………………………..
……………………………………………………..
Frecuencia
Variable (X)
Fuente:…………………………………..
1. Distribución de frecuencias: Variable cualitativa
Supongamos que en una muestra de n unidades estadísticas se observan k categorías o
modalidades diferentes C1, C2,...,Ck, de alguna variable cualitativa X. La tabulación de estos n
datos, es la distribución de frecuencias por categorías del cuadro 1.
La frecuencia absoluta ni = fi, es el número de datos observados en cada categoría o modalidad.
La suma de todas las frecuencias absolutas es igual al total n de datos observados.
La frecuencia relativa hi se define en cada categoría por hi = ni/n. La suma de todas las
frecuencias relativas es igual a uno.
La frecuencia porcentaje pi se define en cada fila por p i hi 100% . El total de las
frecuencias porcentajes es igual a cien.
Cuadro 1. Distribución de frecuencias de variable cualitativa
Variable Frecuencias Frecuencias Frecuencias
X Absolutas Relativas Porcentuales
(Categorías: C) ni hi hi% (pi)
C1 n1 h1 p1
C2 n2 h2 p2
... ... ... ...
Ck nk hk pk
Total N 1.00 100.00
Gráfica.
Las más comunes son la de barras y la de sectores circulares.
En una gráfica de barras los datos de cada una de las modalidades (categorías)Ci se
representan por una barra rectangular vertical (u horizontal), cuya altura (o largo) es
proporcional a su frecuencia. Las barras se dibujan dejando un espacio igual entre ellas
(equidistantes).
Si la escala es nominal las categorías pueden ser colocadas en cualquier orden. Pero, si el
nivel es ordinal las categorías deben ir ordenadas.
En una gráfica circular, los datos de cada categoría Ci se representan por un sector circular
cuyo ángulo en el centro es igual a hi 360.
EJEMPLO 1.
En una encuesta de opinión acerca de las preferencias por el color de la bebida gaseosa que
prefieren: Negro(N), Blanco (B), Rojo(R), 20 consumidores dieron las siguientes respuestas:
B, N, N, B, R, N, N, B, B, N, B, N, N, R, B, N, B, R, B, N.
Construir la distribución de frecuencias. Graficar la distribución
SOLUCION.
X: Color preferido de gaseosa (V. Cualitativa)
La tabulación de estos datos, donde la variable cualitativa es X: Color de bebida gaseosa, es el
siguiente cuadro de distribución de frecuencias y se presenta además las graficas de barra y
circular (torta o pastel).
Grafica Nº 1
………………………………….
………………………………………………………
Personas
9 0.45
8 0.40
7
6
5
4
3 0.15
2
1
0
Negro Blanco Rojo
Fuente: Cuadro Nº 2
La siguiente figura es la representación mediante gráfica de sectores circulares del cuadro 2.
La frecuencia 45% es equivalente a 0. 45 360 162 , la frecuencia 40% es equivalente a
0. 40 360 144 , y la frecuencia 15% es equivalente a 0.15 360 54
Grafica Nº 2
20 consumidores………..
…………………………………………………………
40% R 15%
45%
Fuente: Cuadro Nº 2
x1 n1 h1 N1 H1 p1
x2 n2 h2 N2 H2 p2
... ... ... … … ...
xk nk hk Nk=n Hk=1 pk
Total N 1.00 100.00
2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 1, 2, 4.
Construir la distribución de frecuencias de la variable X. Graficar.
SOLUCION.
X: N° de hijos por familia (V. Cuantitativa Discreta)
Al ordenar estos datos en forma ascendente, se obtienen cinco valores distintos 0, 1, 2, 3, 4
que se repiten respectivamente 1, 4, 7, 6, 2 veces. La distribución de frecuencias de X (numero
de hijos) se da en el siguiente cuadro:
Cuadro Nº 4
Distribución de frecuencias de 20 hogares, según: número de
hijos por familia
0 1 0.05 1 0.05 5%
1 4 0.20 5 0.25 20%
2 7 0.35 12 0.60 35%
3 6 0.30 18 0.90 30%
4 2 0.10 20 1.00 10%
Total 20 1.00 100%
Fuente: Datos de la Encuesta
0 1 2 3 4 X
Fuente: cuadro Nº4
En la gráfica Nº3 de bastones, se indican las frecuencias absolutas y relativas en cada valor
distinto de la variable.
Grafica Nº 4
(Nº de hogares) ni
8-
6-
4-
2-
0 1 2 3 4 Numero de hijos
Fuente: cuadro Nº4
Las frecuencias acumuladas absolutas o relativas acumuladas “menor o igual que” se grafican
de la siguiente manera (grafica escalonada):
Grafica Nº 5
……………………………..
……………………………………………………
20 >
14
10
0 1 2 3 4 X
Fuente: cuadro Nº 5
EJEMPLO 3.
Los ingresos quincenales en dólares (variable X) de 45 personas son: (n=45)
63 90 36 49 56 64 59 35 78
43 53 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
53 64 76 44 73 56 62 63 60
5º A partir del nuevo valor mínimo (X’min = 23) construimos los 7 intervalos con amplitud
C = 10, siendo los intervalos de la forma: ( ]
( 23- 33] ( 33- 43] (43–53] (53-63] (63-73] (73-83] (83-93]
6º Los datos que se encuentran dentro de cada intervalo o clase, es necesario que sean
representados por un solo valor. Este valor caracteriza a la clase por eso se llama marca de
clase, el cual se calcula de la siguiente manera:
L1 L0
Yi = 2 ; i = 1, 2,…., k
L0 : límite inferior del intervalo
L1: límite superior del intervalo
Total
Cuadro Nº 6.
Distribución de frecuencias de 45 personas según sus ingresos
semanales en dólares.
Ingreso( $) Marca de Frecuencia Frecuencia Frec.Abso. Frec. Rel.
(Xi) Clase Absoluta Relativa Acumulada Acumulad hi%
(YI) (ni) (hi) (Ni) a
(Hi)
( 23 – 33 ] 28 1 0.022 1 0.022 2.2%
( 33 – 43 ] 38 4 0.089 5 0.111 8.9%
( 43 – 53 ] 48 7 0.156 12 0.267 15.6%
( 53 – 63 ] 58 18 0.400 30 0.667 40%
( 63 – 73 ] 68 11 0.244 41 0.911 24.4%
( 73 – 83 ] 78 3 0.067 44 0.978 6.7%
( 83 – 93 ] 88 1 0.022 45 1.000 2.2%
Total 45 1.000 100
Fuente: Elaboración propia.
Interpretación:
n2 = 4, significa que 4 personas tienen ingreso semanal mayor a 33 dólares y menor o igual a 43
dólares.
h4 = 0.40, significa que el 40% de las personas tienen ingreso semanal mayor que 53 dólares y
menor o igual a 63 dólares.
N3 = 12, significa que 12 personas tiene ingreso semanal mayor a 23 dólares y menor o igual a
53 dólares
H5 = 0.911, significa que el 91.1% de las personas tienen ingreso semanal mayor a 23 dólares y
menor o igual a 73 dólares.
PROPIEDADES:
Frecuencia absoluta simple: ni (fi)
Es el número de observaciones contenidos dentro de un intervalo o el número de veces que
se repite un valor de la variable
n1+ n2+n3+…………..+ nk = n
Frecuencia absoluta acumulada: Ni (Fi)
Se obtienen sumando sucesivamente las frecuencias absolutas simples, es decir:
N1=n1, N2=n1+n2=N1+n2, N3=n1+n2+n3=N2+n3...........,Nk=Nk-1+nk
Frecuencia relativa simple: hi
Se obtiene dividiendo su respectiva frecuencia absoluta simple entre el numero total de
observaciones (n).
h1=n1/n, h2=n2/n, h3=n3/n,………………..,hk=nk/n
Frecuencia relativa acumulada: Hi
Resultan de sumar sucesivamente las frecuencias relativas simples, es decir
H1=h1, H2=h1+h2=H1+h2, H3=h1+h2+h3=H2+h3,…….,Hk=Hk-1+hk
Histograma
Es una gráfica de barras rectangulares verticales juntas. La base de cada barra es
proporcional a la amplitud del intervalo, y la altura es proporcional a su frecuencia (absoluta,
o relativa, o porcentaje).
En el eje horizontal se colocan las escalas de la variable. En el eje vertical se colocan las
escalas de las frecuencias.
Grafica Nº 6
Nº de personas (ni) ……………………………….
16
14
12
10
8
6
4
2
0
23 33 43 53 63 73 83 93 Ingreso Quincenal ($)
Polígono de frecuencias
Es una gráfica poligonal cerrada, que se obtiene uniendo los puntos medios de las bases
superiores de los rectángulos del histograma.
Grafica Nº 7
…………………………………………
……………………………………………………………..
(ni)
16
14
12
10
8
6
4
2
0
23 33 43 53 63 73 83 93 Ingreso ($)
Fuente: cuadro Nº 6
Grafica de distribución de frecuencias acumuladas
La más usada es el polígono de frecuencias acumuladas, conocida también como ojiva. La
ojiva, se obtiene colocando sobre el eje horizontal los diferentes intervalos y sobre el eje
vertical las respectivas frecuencias acumuladas (absoluta, relativa o porcentaje). Desde el
extremo derecho de cada intervalo levantamos segmentos con alturas iguales a sus respectivas
frecuencias acumuladas, luego unimos los puntos superiores de los segmentos con rectas,
alcanzando la ojiva su máxima altura en el último intervalo.
Grafica Nº 8
……………………………………………………..
N#.persns.
45 1
40 0.9
35 0.8
0.7
30
0.6
25
0.5
20
0.4
15
0.3
10 0.2
5 0.1
0 0
23 33 43 53 63 73 83 93
Ingresos
Fuente: cuadro Nº 6
Aplicación de la Ojiva
Con la ojiva se pueden calcular el número (o porcentaje) de observaciones que
corresponden a un intervalo determinado de la variable. Por ejemplo, en la grafica Nº 8,
aproximadamente 21 personas (4221 en el eje vertical) tienen ingresos entre 58 y 78 dólares
quincenales (en el eje horizontal).
EJEMPLO
Determine el porcentaje (p0) aproximado de personas que tienen ingresos entre $58 y 78$.
SOLUCION.
a) De la distribución de frecuencias se tiene que el porcentaje de ingresos quincenales
comprendidos entre $58 y $78 es igual a:
40 24.4 6.7
Frecuenc. %
x y
Intervalos
53 58 63 73 78 83
83
P0 = x 24.4 y
donde x es el porcentaje comprendido entre $58 y $63, e y es el porcentaje comprendido
entre $73 y $78
Los valores de x e y se calculan por interpolación lineal de la siguiente manera (Proviene de la
semejanza de triángulos entre intervalos y frecuencias en la ojiva):
x 40 x
63 58 63 53 , de donde resulta 20
y 6 .7 y
78 73 83 73 , de donde resulta 3.35
Luego el porcentaje aproximado de personas que tienen ingresos entre $58 y 78$ es igual a:
20 24.4 3.35 47.75%
Porcentaje que equivale aproximadamente a 21 personas
EJEMPLO
Los ingresos mensuales de una muestra de n pequeños comerciantes se tabularon en una
distribución de frecuencias simétrica de 5 intervalos de igual amplitud resultando: Ingreso
mínimo $125, marca de clase del cuarto intervalo Y4 $300. Si el 8% de los ingresos son
menores que $165 y el 70% de los ingresos son menores a $275, ¿qué porcentaje de ingresos
son superiores a $285?
SOLUCION.
Intervalos
X min 125
( X min 3C ) ( X min 4C ) C
Y4 300
2 , entonces, 50
Luego, los intervalos son:
(125, 175] , (175, 225] , (225, 275] , (275, 325] , (325, 375] .
Frecuencias
Si la distribución de frecuencias es simétrica, entonces, h1 h5 , h2 h4 .
Si el 70% de los ingresos son menores que $275, entonces:
h1 h2 h3 0.7 ,
Gráfica de Línea
Si se quiere resaltar variaciones de los datos a través del tiempo, se utiliza una gráfica de
líneas, la misma que se obtiene uniendo con segmentos, puntos de la forma: (tiempo,
frecuencias) en cada modalidad y para una o más de las partes componentes. Por ejemplo, la
figura 1.7 representa la población total del cuadro 1.7 desde 1975 a 1990.
45
40
35
30
25
20
15
10
5
0
1975 1980 1985 1990
Población total de 1975 a 1990
40
30 Mujeres
20 Hombres
10
0
1975 1980 1985 1990
Población de una ciudad de 1975 a 1990
Cuando se utilizan figuras de igual tamaño para reflejar la característica que se quiere
representar, al gráfico estadístico, se denomina pictografía. En una pictografía el número de
figuras en cada categoría o modalidad es proporcional a la frecuencia absoluta respectiva.
Existe otra gran variedad de gráficas o diagramas para mostrar datos ó para mostrar
relaciones entre varios grupos de datos. Aquí la imaginación del dibujante juega un papel muy
importante.
x i
x i =1
n
EJEMPLO
Calcule e interprete la media aritmética de los siguientes datos que corresponden al gasto
diario (soles) de un grupo de alumnos.
6 7 7 8 5 6
Sol.
n
x i
x i =1
n
677856
= 6
= 6.5 soles.
Interpretación:…El gasto promedio de estos alumnos es de 7 soles
X
x n i i
n
EJEMPLO
Calcular la media aritmética e interpretar de la distribución del número de hijos por familia del
siguiente cuadro:
Nº de hijos Nº de
(Xi) familias(ni)
0 1
1 4
2 10
3 8
4 2
Total 25
SOLUCION:
(1*0+4*1+10*2+8*3+2*4)/25
Interpretación:……………………………………………………………………………………………………………………………
………………………………………………..
- Cuadros con intervalos
La media de datos agrupados en cuadros con intervalos utiliza las marcas de clase X’ì y se
calcula de la siguiente manera:
X
x n i
i i
n
EJEMPLO. Calcular la media e interpretar de la distribución de frecuencias de los ingresos
quincenales de 45 personas del cuadro siguiente:
Distribución de frecuencias de 45 personas
según sus ingresos quincenales en dólares
Ingreso Quincenal Marca de Numero de Yini (Ni)
Frec. Absoluta
(dólares) Clase personas
acumulada
X (Y’i) (ni)
( 23 – 33 ] 28 1 28 1
( 33 – 43 ] 38 4 152 5
( 43 – 53 ] 48 7 336 12
( 53 – 63 ] 58 18 1044 30
( 63 – 73 ] 68 11 748 41
( 73 – 83 ] 78 3 234 44
( 83 – 93 ] 88 1 88 45
Total n=45 ∑= 2630
SOLUCION
X
x n i
i i
n = ------------------------------------------------------=
Interpretación:……………………………………………………………………………………………………………………………
…………………………………………….
NOTA (Media aritmética de la población). La media aritmética de una población denotamos
por . Si la población es finita de tamaño N con valores x1, x2, x3,….., xN , la media es el número:
N
x
i =1
i
.
N
(x
i =1
i x ) 0,
x1 n1 x 2 n2 ............. .x r nr
X
n1 n2 ......... nr n
EJEMPLO
Los sueldos del mes de enero de 200 empleados de una empresa tienen una media de $230.
a) Si el 60% de 400 empleados son hombres (el resto son mujeres) y tienen un sueldo
promedio de $ 250, ¿cuánto es el sueldo medio de las mujeres en enero?
b) Si en el mes de julio, se propone un aumento del 30% a cada sueldo de enero más una
bonificación de $30 ¿cuánto dinero adicional necesitará la empresa para pagar los
sueldos de julio?
SOLUCION
a) Sean: la media total; 1: media de hombres y 2: media de mujeres; n1: total de hombres;
n2: total de mujeres. Entonces,
n x n2 x2
x 1 1
n1 n 2
Si el 60% de los 400 empleados son hombres, entonces, se tiene 240 hombres y el resto son
mujeres, luego:
n1 x1 n 2 x 2
x
n1 n 2
240(250) 160 x 2
230 = 400
x2 = 200 $.
El sueldo medio da las mujeres en enero es de 200 $
b) Sean X: sueldos de enero, Y: sueldos de julio. Entonces,
Y X 0.30 X 30
Y = 1.3X + 30 M [Y] = M [1.3X] + M [30]
= 1.3M [X] + 30
= 1.3 (230) + 30
329
Total de dinero para pagar sueldos de enero n 200(230) $46,000
Total de dinero para pagar sueldos de julio n 200(329) $65,800
Dinero adicional para pagar sueldos de julio $65,800 $46,000 $19,800.
NOTA.
1. La media aritmética depende de todos los valores observados, en consecuencia es
"afectada" o “sesgada” por valores extremos. Por ejemplo, la media aritmética de los grupos:
a) 55, 56, 57, 58, 59, 60 es igual a x1 345 6 57.5 .
b) 55, 56, 57, 58, 59, 100 es igual a x 2 385 6 64.2 .
c) 55, 56, 57, 58, 59, 0 es igual a x 3 285 6 47.5 .
Como se puede observar, la media aritmética es sesgada por los valores extremos: 100 en el
grupo b) y 0 en el grupo c).
2. La media aritmética puede ser calculada también en distribución de frecuencias por
intervalos de amplitud diferentes, siempre que puedan determinarse los puntos medios
(marcas) de los intervalos.
0 2 2
1 3 5
2 6 11
3 5 16
4 4 20
Total 20
n
Como 2 ( no coincide con algún Ni, entonces la mediana es:
M e = Xj = 2
Interpretación: el 50% de las familias tienen………..o menos hijos, mientras que el otro 50%
tienen más de……hijos
Ejemplo.
Calcular e interpretar la mediana del siguiente cuadro:
Distribución de frecuencia de 24 obreros,
según: años de experiencia laboral.
Xj-1
xj
n
Como 2 ( coincide con un Ni, entonces, la mediana es:
X j X j 1 23
Me = 2 = 2 = 2.5
Interpretación: el 50% de los obreros tienen…………...o menos años de experiencia, mientras
que el otro 50% tienen más de…………..años de experiencia.
- Cuadros con intervalos, la mediana se determina de la siguiente manera:
n
Si 2 no coincide con algún Ni, entonces, se tiene:
n
Nj-1 < 2 < Nj
Luego: n Me = Li + C
N j 1
Años Nº de Ni 2
X obreros
0 1 -
{ N j N j 1 }
Donde: 1 4 -
n: número 2 7 - total de datos u observaciones
3 8 -
Nj: es un Ni 4 4 - n
Total 24 inmediato superior a 2
n
Nj-1: es un Ni inmediato inferior a 2
IMe: intervalo mediano que corresponde a Nj
Li: límite inferior del intervalo mediano
C: amplitud del intervalo mediano
Ejemplo.
Calcular e interpretar el ingreso quincenal mediano del siguiente cuadro
Distribución de frecuencias de 45 personas según sus ingresos quincenales en dólares
Ingreso Marca Frecuencia Frec.Abso.
Quincenal de Absoluta Acumulad
($) Clase ni a
( ] X1i Ni
( 23 – 33 ] 28 1 1
( 33 – 43 ] 38 4 5
( 43 – 53 ] 48 7 12
( 53 – 63 ] 58 18 30
( 63 – 73 ] 68 11 41
Li =………. ( 73 – 83 ] 78 3 44
( 83 – 93 ] 88 1 45
C = …… Total 45
n
Como 2 no coincide con algún Ni, entonces, la mediana es:
n
N j 1
2
Me = Li + C { N j N j 1 }
22.5 12
53 10
= 30 12 = 58.83 dólares
IMe
Li =………
n
Como 2 coincide con algún Ni, entonces la mediana será:
Me = Li = 63 dólares.
Interpretación:……………………………………………………….………………………………………………………………….
…………………………………………………..
PROPIEDADES DE LA MEDIANA
1) La mediana, sólo depende del número de datos ordenados y no del valor de los datos. Por
lo tanto, no es sesgada por algún valor grande o pequeño.
2) La mediana puede ser calculada para distribuciones de frecuencia con intervalos de
diferente amplitud, siempre que se pueda determinar el límite inferior del intervalo de la
mediana, Li.
3) La mediana puede ser calculada para variables con valores en escala ordinal de una variable
cualitativa. Ejemplo:
n
Como 2 no coincide con algún Ni, entonces la mediana será:
Me = Xj = regular
Xj : categoría de la variable asociada a Nj
Interpretación: la mitad de los alumnos tienen un rendimiento igual o menor que regular.
4) La suma de las diferencias (en valor absoluto) de n datos con respecto a su mediana es
mínima. En el caso de datos sin tabular,
n
x
i 1
i c = mínimo,
EJEMPLO
Cinco personas que viven en lugares situados a distancias en kilómetros a lo largo de una
carretera en línea recta como se indica en la figura que sigue, deben reunirse en algún punto
de la carretera. Determine el lugar de reunión de manera que el costo total del transporte sea
mínimo, si el costo de cada transporte es proporcional al recorrido.
Distancias 20 15 6 10
Lugares A B C D E
SOLUCION
Sea A el origen, entonces, las coordenadas de A, B, C, D y E son respectivamente: x1= 0
, x2 = 20, x3 = 35, x4 = 41 y x5 =51.
Sea K el lugar de reunión. Dado que el costo es proporcional al recorrido, el costo total del
transporte es:
5
x
i 1
i K.
Este costo total es mínimo, si K es la mediana de los 5 valores 0, 20, 35, 41, 51, esto es si
K = 35. Luego, deben reunirse en el lugar C a 35 kilómetros de A.
d1 18 7
M o Li C
d1 d 2 = 53 + 10 (18 7) (18 11) = 59.11
Interpretación: es más frecuente encontrar personas con salario quincenal de…59.11dólares.
RELACION ENTRE LA MEDIA, LA MEDIANA Y LA MODA
1. Si la distribución de frecuencias es simétrica, entonces, la media, la mediana y la
moda tienen el mismo valor (figura (a)). Esto es,
x Me Mo .
2. Si la distribución es asimétrica de cola a la derecha, entonces, la moda es menor que
la mediana y esta a su vez es menor que la media (figura (b)). Es decir:
Mo Me x .
3. Si la distribución es asimétrica de cola a la izquierda, entonces, la relación es (figura (c)):
x Me Mo .
a) b) c)
2. MEDIDAS DE POSICION NO CENTRAL
2.1. Los Cuartiles. Dividen al conjunto de datos en cuatro partes iguales, de tal manera que
entre cuartil y cuartil se encuentra no más del 25% de las observaciones.
n (100%)
Donde:
r = 1, 2 y 3
2.2. Los Deciles.
Dividen al conjunto de datos en diez partes iguales, de tal manera que entre decil y decil se
encuentra no más del 10% de las observaciones.
Se cuentan con nueve deciles: D1, D2,……………………….., D9.
Xmin. I I I I I I I I I Xmax.
D1 D2 D3 D4 D5 D6 D7 D8 D9
Se obtienen mediante:
Donde: r = 1, 2, …….., 9
2.3. Los Percentiles.
Dividen al conjunto de datos en 100 partes iguales. Se cuentan con 99 percentiles:
P1, P2,……………………………,P99.
Se obtienen mediante:
Ejemplo.
Calcule e interprete el Q3, en el siguiente cuadro de distribución de frecuencias:
Distribución de frecuencias de 45 personas según sus ingresos quincenales en dólares
Ingreso Marca Frecuencia Frec.Abso.
Quincenal de Absoluta Acumulad
($) Clase ni a
( ] X1i Ni
( 23 – 33 ] 28 2 2
( 33 – 43 ] 38 5 7
( 43 – 53 ] 48 8 15
( 53 – 63 ] 58 10 25
( 63 – 73 ] 68 11 36
IQ3 ( 73 – 83 ] 78 9 45
( 83 – 93 ] 88 5 50
Total 50
= = 74.67 dólares
Interpretación: El ingreso máximo quincenal del 75% de las personas es de 74.67 dólares.
3. MEDIDAS DE DISPERSION.
Son medidas o valores que sirven para cuantificar la homogeneidad (uniformidad, variabilidad
o estabilidad) de los datos. Es decir miden la proximidad que tienen los datos entre sí.
Estudiaremos las siguientes medias de dispersión:
A. Medidas de dispersión absolutas.
1) Amplitud o Rango (R). Es la medida de dispersión más simple.
- Datos no agrupados: R = Xmax.- Xmin.
- Datos agrupados: R = LSk – LI1
LSk: Limite superior del último intervalo.
LI1: Limite inferior del primer intervalo.
Ejemplo. Calcule el rango del siguiente conjunto de datos: 4 5 3 6 7 4 5 5 2 7.
Sol.
R = …7-2
R=5
2) Rango intercuartil (RI). Es la diferencia entre sus cuartiles tercero y primero. Esto es,
RI Q3 Q1 .
El rango intercuartil es una medida que excluye el 25% más alto y el 25% más bajo, dando un
rango dentro del cual se encuentra el 50% central de los datos observados y a diferencia del
rango total no se encuentra afectada por los valores extremos.
Si el rango intercuartil es muy pequeño entonces describe alta uniformidad o pequeña
variabilidad de los valores centrales.
3) La varianza (S2). Se define como la media aritmética de los cuadrados de las
diferencias de los datos con respecto a su media aritmética. La varianza es una medida de
dispersión con unidades de medición al cuadrado, por ejemplo, $2, Km2, etc. Es una medida
que cuantifica el grado de dispersión o de variación de los valores de una variable cuantitativa
con respecto a su media aritmética. Si los valores tienden a concentrarse alrededor de su
media, la varianza será pequeña. Si los valores tienden a distribuirse lejos de la media, la
varianza será grande.
4) La desviación estándar (S). Se define como la raíz cuadrada de la varianza, es la medida
de dispersión más utilizada junto con .
S=
Por lo tanto las unidades de medición ya no son al cuadrado.
Calculo de la varianza:
A) Varianza de datos no agrupados.
(x i x)2
s2 i =1
n 1
o
n n
xi2 ( xi ) 2 / n
s2 i 1 i 1
n 1
Ejemplo.
Calcular la varianza y la desviación estándar e interpretar de los siguientes datos que
corresponden al gasto diario en soles de 5 alumnos de la UNP:
6 5 7 7 8
Solución:
n n
n =5,
x
i =1
2
i
223,
xi 1
i
33
n n
x 2
i ( x i ) 2 / n
s2 i 1 i 1
n 1 =
= 1.3 soles . 2
Interpretación: El promedio del cuadrado de las desviaciones de los datos (gastos diarios) con
respecto a su media es de 1.05 soles.
S=
=1.02 soles.
Interpretación: En promedio los datos se desvían de su media en 1.02 soles.
B) Varianza de datos agrupados o tabulados
- cuadros sin intervalos
n (x i i x)2
s2 i =1
n 1
o
k k
ni xi2 ( xi ni ) 2 / n
s2 i 1 i 1
n 1
K: numero de valores diferentes que toma la variable.
Xi: Valores diferentes que toma la variable.
Ejemplo.
Calcular la varianza y la desviación estándar del número de hijos de la muestra de 20 familias
en la siguiente tabla:
xi ni ni x i ni x i2
0 1 0 0
1 4 4 4
2 7 14 28
3 6 18 54
4 2 8 32
Total 20 44 118
n k k
ni xi2 ( xi ni ) 2 / n
s2 i 1 i 1
n 1
=
1.06 hijos2.
Interpretacion:……………………………………………………………………………………………………………………………
…………………………………………………………………………………..
2
La desviación estándar es: s s 1.06 1.03 hijos.
Interpretacion:……………………………………………………………………………………………………………………………
……………………………………………………………………………………
- Cuadros con intervalos
La varianza de n valores de alguna variable X, tabulados en k intervalos, con marcas de clases
X 1! , X 2! ,..., X k! , frecuencias absolutas respectivas n1 , n 2 ,..., n k y con media x es:
k
n (X i
!
i x)2
s2 i =1
n 1
2
k
k
X ni X i!ni / n
i 1
!2
i
s 2 i 1
n 1
K: Numero de intervalos.
: Marca de clase.
Ejemplo.
Calcular la varianza y la desviación estándar de los 45 ingresos quincenales tabulados en el
siguiente cuadro.
Solución.
Ingresos Marcas N#.Personas Productos Productos
n 45,
ni X n !
i i
2
X i! ni
k 8,
(26-34] 30 1 30 900
(34-42] 38 2 76 2888
(42-50] 46 4 184 8464
(50-58] 54 10 540 29160
(58-66] 62 16 992 61504
(66-74] 70 8 560 39200
(74-82] 78 3 234 18252
(82-90] 86 1 86 7396
Total n=45 2702 167764 Suma=
k 2702 k
X !
ii ni x
45
X !2
i ni
i 1 2702, 60.044, i =1 167,764
Luego,
2
k
k
X ni X i!ni / n
!2
i
i 1
s 2 i 1
n 1
= = 122.754 $ 2
Interpretacion:……………………………………………………………………………………………………………………………
……………………………………………………………………………….
S=
= 11.0794 $.
Interpretacion:……………………………………………………………………………………………………………………………
……………………………………………………………………………….
Nota.
- La desviación estándar es siempre positiva.
- Si queremos comparar cual de dos conjuntos de datos es más homogéneo, la desviación
estándar se utiliza siempre que:
. Los conjuntos de datos tengan las mismas unidades de medida
y correspondan a una misma variable.
. Las medias de los grupos son iguales o semejantes.
5) El coeficiente de variación (CV). Es una medida relativa que cuantifica la dispersión que
tienen los datos expresado como el porcentaje de la desviación estándar con respecto a (si
es el 100%).
CV = x 100%
Sus propiedades son:
- El CV no tiene unidades.
- Es útil para juzgar si un conjunto de datos tiene un comportamiento homogéneo o
heterogéneo, aplicando la siguiente tabla:
Valor del CV Interpretación
0 ≤ CV < 5% Los datos son muy homogéneos
5 < CV < 10 Los datos son homogéneos
10 < CV < 15 Los datos son regularmente homogéneos
15 < CV < 20 Los datos son regularmente heterogéneos
20 < CV < 25 Los datos son heterogéneos
25% < CV Los datos son muy heterogéneos
- El CV también es útil para comparar la dispersión de dos o más conjunto de datos que tienen
las mismas o diferentes unidades y/o con promedios diferentes.
Ejemplo.
Calcule e interprete el CV del cuadro anterior que corresponde al ingreso quincenal en dólares
de 45 personas.
Solución.
CV = x 100%
= 18.45 %
Interpretación: Los ingresos son regularmente heterogéneos.
4. MEDIDAS DE FORMA.
A. Coeficiente de asimetría (AS). Estudia la deformación horizontal de la distribución de
los datos.
x Mo
As
C s
3( x Me)
AS .
C s
P75 P25
K 0.5
P90 P10
CAPITULO II
PROBABILIDAD
1. TECNICAS DE CONTEO. Sirven para estudiar las diversas maneras de formar arreglos o
grupos con los elementos de un conjunto y para calcular el número total de ocurrencias
posibles.
1.1. Principio de multiplicación. Suponga que un primer procedimiento puede hacerse de n1
maneras y que un segundo procedimiento puede hacerse de n2 maneras. Suponga también
que cada una de las maneras de efectuar el primer procedimiento puede ser seguida por
cualquiera de las maneras de efectuar el segundo procedimiento. Entonces el procedimiento
que consta del primer procedimiento seguido del segundo puede hacerse de n1 x n2 maneras.
Generalizando, se puede extender para una operación que puede realizarse como una
secuencia de K etapas.
Ejemplo.
Un artículo manufacturado debe pasar por dos controles. En cada uno de los controles
se inspecciona una característica particular del artículo y se le anota la conformidad. En el
primer control hay dos mediciones posibles (M1 y M2), mientras que en el segundo hay tres
mediciones posibles (K1, K2 y K3). Por lo tanto se tiene 2 x 3 = 6 maneras de anotar el artículo.
1.2. Principio de adición. Suponga que primer un procedimiento puede hacerse de n1
maneras y que un segundo procedimiento puede hacerse de n2 maneras y suponga además
que ambos procedimientos no pueden realizarse juntos. Entonces el numero de formas que
pueden realizarse el primero o el segundo procedimiento es n1 + n2. Este resultado también se
puede generalizar para k procedimientos.
Ejemplo.
Si una persona desea trasladarse de Lima a Arequipa y tiene 3 maneras de hacerlo por
vía aérea y 12 por vía terrestre, entonces el total de formas de trasladarse de Lima a Arequipa
es 12 + 3 =15.
1.3. Permutación. Técnica de conteo que permite determinar el número total de arreglos
que se pueden formar a partir de “n” objetos diferentes. Se caracteriza por que dos arreglos
pueden tener los mismos elementos, pero por la forma en que están dispuestos hace que
estos sean diferentes, (a, b, c) es diferente de (b, c, a). Se presentan los siguientes casos:
Caso 1. Se tiene “n” objetos diferentes entre sí y se desea arreglar los “n”
objetos al mismo tiempo es decir todos a la vez (teniendo en cuenta el orden), la formula es:
= n x (n - 1) x (n – 2)…………x 1 = n!
Ejemplo.
Un empresario debe asignar a sus 5 vendedores a 5 distritos diferentes. Existen
= n! = 5 x 4 x 3 x2 x1 =120 formas.
Caso 2. Se tiene “n” objetos diferentes y se desea formar arreglos de “r”
objetos tal que r < n. La formula es:
=
Ejemplo. En un concurso público realizado en una institución privada para cubrir los puestos
de trabajo de supervisor, gerente de ventas y gerente de recursos humanos se evaluaron 40
expedientes de igual número de candidatos. ¿De cuantas formas pueden cubrirse las
vacantes?
Solución.
n = 40 y r = 3, entonces serian: = = 59280 formas.
1.4 Permutaciones con objetos que se repiten. En el caso de que se tenga “n” objetos con
algunos que se repiten, es decir no todos son diferentes, el número total de arreglos posibles
de los “n” objetos se obtiene:
=
Ejemplo.
Un obrero se encuentra arreglando 3 martillos, 2 alicates y 4 desarmadores. Si las
herramientas se arreglan al azar y no se diferencian entre si, ¿de cuantas formas puede el
obrero arreglar sus herramientas?
Solución
Número total de arreglos = = 1260.
1.5 Combinación. Técnica de conteo que permite determinar el número de grupos de tamaño
“r” que se pueden obtener a partir de “n” objetos diferentes (r<n). No interesa el orden en que
aparecen los componentes del grupo, (a, b, c) = (b, a, c) =(c, a, b).
= =
Ejemplo.
El gerente de ventas de una empresa tiene que elegir a 8 vendedores de un total de
15 para capacitarlos en técnicas modernas de atención al cliente, ¿de cuantas maneras puede
elegir el gerente a los 8 vendedores?
Solución.
n =15 y r=8 = = 6435 maneras.
PROBABILIDAD
La probabilidad es la principal herramienta matemática que se tiene para cuantificar la
incertidumbre de resultados que son de interés. Los juegos de azar y la incertidumbre
de sus resultados fueron las principales motivaciones para que matemáticos como
Cardano, Galileo, Pascal y otros desarrollen muchas de las ideas fundamentales de
probabilidad. El primero en formalizar las ideas de probabilidad fue Laplace quien
enuncio la definición clásica de probabilidad. En la actualidad la teoría de probabilidad
que se utiliza es la que se debe a Komolgorov quien sostiene que los eventos o sucesos
son representados por conjuntos y la probabilidad es solo una medida normada
definida en estos conjuntos.
Términos y simboles básicos.
- Experimento o fenómeno aleatorio (є). Es un proceso o procedimiento que
consiste de la ejecución de un acto (o prueba) una o más veces, cuyo resultado en cada
prueba depende del azar y en consecuencia no se puede predecir con certeza.
Por ejemplo, son experimentos aleatorios: lanzar un dado y observar el resultado, contar
objetos defectuosos producidos diariamente por cierto proceso, aplicar una encuesta para
obtener opiniones, etc.
- Espacio muestral (). Es el conjunto que consiste de todos los resultados posibles
de un experimento aleatorio.
Cada resultado posible de un experimento aleatorio es un elemento del espacio muestral. A
cada elemento del espacio muestral se denomina también punto muestral. Esto es, el espacio
muestral se describe por
{ / es un punto muestral}.
Si el espacio muestral tiene un número finito de elementos es posible enlistar a todos estos,
y si el número de elementos es grande o infinito el espacio muestral se describirá mediante un
enunciado o regla.
EJEMPLO.
A continuación se dan algunos experimentos aleatorios y sus correspondientes espacios
muéstrales:
1) El experimento aleatorio de lanzar un dado y observar el resultado obtenido, tiene como
espacio muestral el siguiente conjunto de puntos muéstrales:
1 = {1, 2, 3, 4, 5, 6}.
2) El experimento aleatorio de lanzar una moneda 3 veces, consiste de 3 pruebas, cuyo espacio
muestral puede escribirse:
2 = {CCC, CCS, CSC, SCC, SSC, SCS, CSS, SSS}.
NOTA. Los espacios muestrales de experimentos aleatorios que consisten de dos o más
pruebas sucesivas se obtienen también de un diagrama tipo árbol:
3a.prueba
2a.prueba Puntos muestrales
1a.Prueba C CCC
C
S CCS
C C CSC
S
S CSS
C C SCC
S S SCS
C SSC
S
S SSS
3) Si el experimento aleatorio es lanzar una moneda y un dado a la vez, y observar los
resultados, el espacio muestral es el conjunto:
3 = {1C, 2C, 3C, 4C, 5C, 6C, 1S, 2S, 3S, 4S, 5S, 6S}.
4) Si el experimento aleatorio es lanzar una moneda tantas veces como sea necesario hasta
que aparezca la primera cara, su espacio muestral es el conjunto:
4 = {C, SC, SSC, SSSC,...etc.}.
5) Si el experimento aleatorio es medir la vida útil (en horas) de una marca de artefacto
eléctrico, su espacio muestral es el conjunto:
5 {t / t 0} .
Ac
A
En general, diremos que los eventos: A1 , A2 ,..., An son mutuamente excluyentes si,
Ai A j , i j , i, j 1,2,3,..., n
4. La diferencia del evento A menos B es el evento A B , que consiste de todos los puntos
muestrales que pertenecen al evento A y no pertenecen al evento B, esto es,
A B {w / w A w B}.
A B
Algebra de sucesos.
Se cumplen las siguientes igualdades:
1) A A A , A A A
2) A B B A , A B B A
3) A A c , A A c
4) A A , A
5) A , A A
c c c c
6) , , ( A ) A
7) A ( B C ) ( A B) ( A C )
A ( B C ) ( A B) ( A C )
c c c c c c
8) ( A B) A B , ( A B) A B
Probabilidad de un Suceso
Definición de Kolgomorov.
Sea el espacio muestral asociado a un experimento aleatorio. La probabilidad de cualquier
suceso A de , es el número real P(A) que satisface los siguientes axiomas:
P1) P ( A) 0 , para todo evento A.
P2) P () 1 .
P3) Si A y B son dos eventos mutuamente excluyentes, entonces,
P ( A B ) P ( A) P ( B ) .
De los axiomas de probabilidad resultan los teoremas que siguen:
TEOREMAS.
1. Si es el suceso imposible, entonces P () 0 .
2. Si A c es el complementario del suceso A, entonces,
P( A) 1 P( A c ) P( A c ) 1 P( A) .
o
3. Si A y B son dos sucesos tal que A B, entonces, P ( A) P ( B )
Nota. Para todo evento A, se verifica, A , entonces,
P () P ( A) P () ,
Consecuentemente : 0 P( A) 1 .
4. (Regla de la adición de eventos).
Si A y B son dos sucesos cualesquiera, entonces:
P ( A B ) P ( A) P ( B ) P ( A B ) .
Nota. Una consecuencia inmediata del teorema es:
P ( A B ) P ( A) P ( B )
Nota. Para tres eventos cualesquiera A, B y C, se tiene:
P ( A B C ) P ( A) P ( B ) P (C ) P ( AB ) P ( AC ) P ( BC ) P ( ABC )
Esta regla se generaliza para n eventos.
Ejemplo 1
La probabilidad de que llueva en Piura un día cualquiera es 0.10 , la probabilidad de que truene
es 0.05. La probabilidad de que llueva y truene es 0.03. ¿Cuál es la probabilidad de que llueva o
truene en Piura?
Ejemplo 2.
Suponga que en un sorteo la probabilidad de ganar el primer premio es 2/5 . La de ganar el
segundo premio es 3/8. Si la probabilidad de ganar al menos uno de los 2 premios es 3/4,
calcular la probabilidad de ganar:
a) Sólo uno de los dos premios, b) ninguno de los dos premios.
Solución.
Sean los sucesos: A: "ganar el primer premio" y B: "ganar el segundo premio". Se tiene
2 3 3
P( A) 0.40 P( B) 0.375 P( A B) 0.75
5 , 8 , y 4 .
Además, P ( A B ) P ( A) P ( B ) P ( A B )
Sustituyendo: P( A) 0.40 , P( B) 0.375 , y P ( A B ) 0.75 resulta
P ( A B ) P ( A) P ( B ) P ( A B ) 0.40 0.375 0.75 0.025
Las probabilidades de cada una de las partes de son.
A B
0.025
0.375 0.35
TIPOS DE PROBABILIDAD.
A. Probabilidad Clásica. Una función de probabilidad es igualmente probable o equiprobable
(Uniforme discreta) si para cada elemento de se le asigna la misma probabilidad. Es decir si,
{w1 , w2 , , wn } , espacio muestral finito, entonces:
1
P ({wi })
n, i = 1, 2, ……….., n. Con esta definición de probabilidad se tiene que para
cualquier suceso A, P(A) =
n( A)
= n ()
Llamada también probabilidad a priori debido a que es posible conocer el resultado con
anterioridad, es decir, sin llevar a cabo el experimento.
Ejemplo.
Se lanza un dado y se observa el número obtenido. Calcular la probabilidad de obtener:
a) 3 puntos, b) al menos 5 puntos
Solución.
El espacio muestral del experimento aleatorio que consiste en lanzar un dado y observar el
resultado, es el conjunto: {1, 2, 3, 4, 5,6}
a) Sea A: “obtener 3 puntos”, entonces, A{3}, y n(A) = 1, la probabilidad de A es el número:
n( A) 1
P ( A) 0.167.
n() 6
b) Sea B: “obtener al menos 5 puntos”, entonces, B {5,6}, y n(B) = 2, la probabilidad de B es el
número:
n( A) 2
P( B)
n() 6 = 0.33
Ejemplo.
Se lanza un dado 2 veces consecutivas. Calcular la probabilidad de obtener:
a) 7 puntos.
b) 6 puntos sólo en la segunda tirada.
c) 7 puntos ó 6 puntos sólo en la segunda tirada.
Solución.
El espacio muestral del experimento aleatorio que consiste en lanzar un dado dos veces y
observar los puntos obtenidos, es el conjunto:
{(i, j ) / i, j 1,2,3,4,5,6} =
n() 36 , este espacio tiene 36 eventos elementales equiprobables.
a) Sea A: "suma 7 puntos", entonces,
A = {(1,6), (6,1), (2,5), (5,2), (3,4), (4,3)} , # ( A) 6
y su probabilidad es el número:
n( A) 6 1
P( A) 0.167.
n() 36 6
b) Sea B: "sale 6 sólo en la segunda tirada", entonces,
B = {(1,6), (2,6), (3,6), (4,6), (5,6)}, n( B ) 5
y su probabilidad es el número:
n( B ) 5
P( B) 0.139.
n() 36
c) Sea A B: "sale suma 7 o sólo 6 en la segunda tirada" entonces:
A B = {(1,6), (6,1), (2,5), (5,2), (3,4), (4,3), (2,6), (3,6), (4,6), (5,6)}
y su probabilidad es el número:
n( A B) 10
P( A B) 0.278.
n () 36
2. Probabilidad de frecuencia relativa. Sea un experimento aleatorio є que se ejecuta n veces.
Sea n(A) el número de veces que ocurre el suceso A, entonces tiende a P(A). Siempre que el
número de veces que se ejecuta el experimento tienda a infinito podemos considerar:
P (A) = = = hi (frecuencia relativa)
La probabilidad de frecuencia relativa, es llamada también empírica o a posteriori, debido a
que se obtiene el resultado después de llevar a cabo el experimento.
Ejemplo 3:
En una encuesta realizada a 1500 pequeñas empresas de la ciudad de Lima, sobre el número
de medidas de seguridad se encontró los siguientes resultados:
Nº de medidas de seguridad Nº de empresas hi = P(Ai)
Xi = Ai (ni)
0 1000 0.07
1 800 0.53
2 300 0.20
3 250 0.17
4 50 0.03
Total 1500 1.00
PROBABILIDAD CONDICIONAL.
Estudia la relación de dos o más sucesos, de tal manera que la probabilidad de la ocurrencia de
un suceso depende de la ocurrencia o no de otro suceso. Se ocupa del análisis de aquellos
experimentos que se ejecutan en más de una etapa.
Definición. Sean A y B dos sucesos en un espacio muestral. La probabilidad condicional de que
B ocurra dado que A ha ocurrido,” P ( B / A) ”, se define por:
P( A B)
P B A , si P( A) 0.
P( A)
n( A B )
n( A)
“/ “: “Dado que “ o “si “.
A: Espacio muestral reducido
Ejemplo.
Un club consiste de ciento cincuenta miembros. Del total, 3/5 son hombres y 2/3 son
profesionales. Además, 1/3 de las mujeres son no profesionales.
a) Se elige al azar un socio del club:
a1) Calcular la probabilidad de que sea hombre y profesional.
a2) Calcular la probabilidad de que sea hombre, dado que es profesional.
Solución.
El espacio muestral consiste de los 150 miembros del club que son clasificados en: Hombre
(H), Mujer (M), Profesional (P), y No profesional (N), según la siguiente tabla:
= x
b) El suceso C: “Salen los números 2 y 5” es el conjunto:
C {( 2,5), (5,2)} y n(C) = 2, entonces.
P (C) = =
REGLAS DE MULTIPLICACION.
TEOREMA.
a) P ( A B ) P ( A) PB , si A y B son dos sucesos independientes
P ( A B ) P ( A) P ( B A) , si B depende de A.
b) En general, si A1 , A2 ,, An son n sucesos, entonces,
P( A1 A2 ... An ) P( A1 ) P( A2 )...P( An )
Si los sucesos son independientes.
Ejemplo
Un lote contiene 15 objetos de los cuales 7 son calificados como E (éxito) y el resto como F
(fracasos). Del lote se escogen 5 objetos al azar una tras otra, calcular la probabilidad de que
los cinco sean éxitos, si las extracciones se hacen:
a) con reposición,
b) sin reposición.
Solución.
Sean los eventos:
Ei : “sale objeto defectuoso en la extracción i”, i 1, 2, 3, 4, 5.
Fi : “sale objeto bueno en la extracción i”, i 1, 2, 3, 4, 5.
Si A es el evento "los 5 objetos sustraídos sucesivamente son éxitos", entonces,
A E1 E 2 E 3 E 4 E 5 E1 E 2 E 3 E 4 E 5
a) Si las extracciones son con reposición los eventos son independientes, entonces,
7 7 7 7 7
P ( A) P ( E1 ) P ( E 2 ) P ( E 3 ) P ( E 4 )
15 15 15 15 15 =
b) Si las extracciones son sin reposición los eventos son dependientes, entonces,
P( A) P( E1 ) PE 2 E1 PE3 E1 E 2 PE 4 E1 E 2 E3 PE5 E1 E 2 E3 E 4 .
7 6 5 4 3
P ( A) .
15 14 13 12 11 =
A1 A2 .... Ak
0.03
0.5 A1 B
0.04 B
0.3 A2
0.05
0.2 A3 B
VARIABLE ALEATORIA
Dado un experimento aleatorio E y un espacio muestral asociado, una variable aleatoria
es una función X que le hace corresponder a cada uno de los eventos del espacio muestral
un número real. Si el número real sólo se puede expresar en enteros, a la variable aleatoria
se le denomina variable aleatoria discreta, si pueden tener decimales, es una variable aleatoria
continua.
Esto es, una variable aleatoria X es una función definida en tal que a cada elemento w
le asocia el número real x = X ( w )
Reales
W X
*x = X ( w )
RX
El dominio de la variable aleatoria X es el espacio muestral y el rango es un subconjunto de
los números reales que denotaremos por RX, siendo,
R X {x / x X ( w), w }
1. VARIABLE ALEATORIA DISCRETA. Una variable aleatoria discreta es aquella cuyo
rango es un conjunto finito o infinito numerable de valores.
Si la variable aleatoria X es discreta, su rango se expresará en general por:
R X {x1 , x 2 ,...., x n ,...} .
Ejemplo.
Sea el experimento lanzar al aire una moneda tres veces consecutivas, cuyo espacio muestral:
{SSS, SSC, SCS, CSS, SCC, CSC, CCS, CCC}.
Si X se define en como "el número de caras obtenidas", entonces, X es una variable
aleatoria tal que:
X 0, corresponde al suceso elemental {SSS}.
X 1, corresponde a los sucesos elementales {SSC}, {SCS} y {CSS}.
X 2, corresponde a los sucesos elementales {SCC}, {CSC} y {CCS}.
X 3, corresponde al suceso elemental {CCC}.
Cuyo rango es el conjunto: R X {0, 1, 2, 3}, por lo tanto, X es una variable aleatoria discreta.
FUN CION DE PROBABILIDAD.
Una variable aleatoria discreta asume cada uno de sus valores con cierta probabilidad que
denotaremos por PX = P[ X x i ] P({w / X ( w) x i })
Por ejemplo, si la variable aleatoria X es el número de caras que resultan al tirar una moneda
3 veces, el rango de X es R X {0, 1, 2, 3}, entonces,
P [X 0] P ({SSS}) 1/8.
P [X 1] P ({SSC o SCS o CSS}) 3/8.
P [X 2] P ({SCC o CSC o CCS}) 3/8.
P [X 3] P ({CCC}) 1/8.
Nota:
1. El conjunto de pares ( x i , P[ X x i ]) es la distribución de probabilidades de la variable
aleatoria X .
Esta distribución es similar a una distribución de frecuencias relativas, por tanto, se pueden
calcular, por ejemplo, medidas de tendencia central y de dispersión.
2. Las probabilidades p i P[ X x i ] , x i R X satisfacen las propiedades:
a) pi 0, para cada xi R X , b) p
xi R X
i 1.
Definición. Sea X una variable aleatoria discreta. Se denomina función (ley o modelo o
distribución) de probabilidad de X a la función f (x) definida por f ( x) P[ X x] para
todo x número real y que satisface las siguientes condiciones:
i) f ( x) 0 x , y ii) f (x ) 1
xi R X
i
Nota:
La función de probabilidad de una variable aleatoria X se puede expresar: por una ecuación
f ( x) P[ X x] , o por el conjunto de pares {( x i , p i ) / p i f ( x i ), x i R X } o por una
tabla, como:
Distribución de probabilidad de v. a. discreta
Valores xi de X x1 x2 x3 ... xn
Probabilidad p i P[ X x i ] p1 p2 p3 ... pn
La gráfica de una distribución de probabilidades discreta es la gráfica de bastones.
Ejemplo.
Sea la variable aleatoria X: “número de caras que ocurren al lanzar una moneda 4 veces”.
a) Determinar la distribución de probabilidades de X. Graficarla.
b) Calcular la probabilidad P[0 X 2] .
Solución.
a) El rango de la variable aleatoria X, es el conjunto R X {0,1,2,3,4} . Suponiendo que los
dieciséis sucesos elementales del espacio muestral son equiprobables, la función de
probabilidad, es descrita por:
f (0) P[ X 0] P( SSSS ) 1 16
f (1) P[ X 1] P ( SSSC ó SSCS ó SCSS ó CSSS ) 4 16
f (2) P[ X 2] P ( SSCC ó SCSCó SCCS ó CSSC ó CSCS ó CCSS ) 6 16
f (3) P[ X 3] P ( SCCC ó CCSC ó CSCC ó CCCS ) 4 16
f (4) P[ X 4] P (CCCC ) 1 16
Observar que si k R X , entonces, X k , si y sólo si, en las 4 tiradas de la moneda aparecen
4k 4
k caras y sellos. Esto ocurre de C k formas. Cada una de esas formas tiene
probabilidad:
(1 2) k (1 2) 4 k (1 2) 4 1 16
siendo k = 0, 1, 2, 3, 4. Luego, la función de probabilidad del número de caras se puede
describir como la ecuación:
C k4
f (k ) , k = 0, 1, 2, 3, 4
16 .
O como tabla:
Valores xi de X x1 x2 x3 ... xn
Probabilidad p i P[ X x i ] p1 p2 p3 ... pn
Entonces:
Valores xi de X 0 1 2 3 4
Probabilidad p i P[ X x i ]
Grafica:
Pi
* * * * *
0 1 2 3 4 X
2
4 6 10
P[0 X 2] f (k ) f (1) f (2)
b) k 1 16 16 16
Ejemplo.
Sea X la variable aleatoria definida como el número de caras que resultan al lanzar una
moneda 4 veces.
a) Hallar la función de distribución F(x) de la variable aleatoria X y graficarla.
b) Usando F(x), calcular P[0 X 2] .
Solución.
a) La función de probabilidades f(x) de la variable aleatoria X está descrita en el ejemplo anterior
por:
f (0) 1 16 , f (1) 4 16 , f (2) 6 16 , f (3) 4 16 y f (4) 1 16 .
Entonces,
F (0) f (0) 1 16 .
F (1) f (0) f (1) 1 16 4 16 5 16
F (2) f (0) f (1) f (2) 1 16 4 16 6 16 11 16
F (3) f (0) f (1) f (2) f (3) 1 16 4 16 6 16 4 16 15 16
F (4) f (0) f (1) f (2) f (3) f (4) 1 16 4 16 6 16 4 16 1 16 1
Por tanto,
0, x<0
1 16 , 0 x <1
5 16 , 1 x < 2
F ( x)
11 16 , 2 x<3
15 16 , 3 x < 4
1, x4
La gráfica:
11 1 10
P[0 X 2] P[ X 2] P[ X 0] F (2) F (0)
b) 16 16 16
E( X ) x
x i R X
i f ( xi )
Ejemplo.
Calcular el valor esperado de la distribución de probabilidad de la variable aleatoria X que se
define como el número de caras cuando se lanzan cuatro monedas.
Solución.
La distribución de probabilidad de X es:
xi 0 1 2 3 4
f ( xi ) 1/16 4/16 6/16 4/16 1/16
La media de X es el número:
1 4 6 4 1
E ( X ) xi f ( xi ) 0 1 2 3 4 2
16 16 16 16 16
Lo cual significa que si lanzamos 4 monedas, muchas veces, en promedio obtendremos 2 caras
por lanzamiento.
VARIANZA DE UNA VARIABLE ALEATORIA DISCRETA: ( = V(X) )
2
Sea X una variable aleatoria con distribución de probabilidad f (x) y con media igual a . La
varianza de X es la expresión:
2 E[( X ) 2 ] ( xi ) 2 f ( xi ) , o
V ( X ) E ( X 2 ) ( E[ X ]) 2
* La desviación estándar:
σ=
Ejemplo.
Calcular la varianza de la distribución de probabilidad de la variable aleatoria X que se define
como el número de caras al lanzar cuatro monedas.
Solución.
V ( X ) E ( X 2 ) ( E[ X ]) 2
La distribución de probabilidad de X es:
Xi 0 1 2 3 4
f(xi) 1/16 4/16 6/16 4/16 1/16
En el ejemplo anterior se calculó E ( X ) 2. Además,
4
1 2 4 6 4 1 80
E ( X 2 ) ( x 2 ) f ( x ) 0 2 1 22 32 42 5
x 0 16 16 16 16 16 16
Por lo tanto, 2 E ( X 2 ) ( E[ X ]) 2 5 (2) 2 1
ii)
f ( x)dx 1
Nota:
- La condición i) expresa que la gráfica de f(x) no tiene puntos por debajo del eje de las
abscisas.
- La condición ii), indica que el área total bajo la curva es igual a uno.
- Una probabilidad es igual a una porción de área. Esto es, si A [a, b] , la probabilidad
P[a X b] es igual al área de la región limitada por la curva, el eje X y las rectas X a, X b,
es decir:
b
P[a X b] f ( x)dx
a
P[a X b]
Ejemplo.
Sea f (x) una función definida en todos los números reales por
cx 2 , si x [0,2]
f ( x)
0, si x [0,2]
a) Hallar el valor de la constante c para que, f (x) sea una función de densidad.
b) Calcular P[0 X 1] .
Solución.
a) El área debe ser igual a 1, entonces,
2
2 x3 8
1 f ( x)dx cx dx c
2
c
0
3 0
3
c 3 8 . Luego,
3 x 2 8 , si x [0,2]
f ( x)
0, si x [0,2]
Grafica:
1
1 3x 2 x3 1
b) P[0 X 1] ( )dx
0 8 8 0 8
FUNCION DE DISTRIBUCION ACUMULADA. La función de distribución acumulada, F (x) de
una variable aleatoria continua X con función de densidad f(x), se define por:
x
F ( x) P[ X x] f (t )dt , para x
F(x) P [ X x ]
Nota:
P[a X b] F (b) F (a ) .
Ejemplo.
x
, si 1 x 3
f ( x) 4
0, en otro caso
0, si x 1
2
x 1
F ( x) = , si 1 x 3
8
1, si x 3
La gráfica es:
5 5 5 5 21 9 75
P X F F .
b) 4 2 2 4 32 128 128
MEDIA O VALOR ESPERADO. La media de una variable aleatoria continua X con función
de densidad de probabilidad f (x) es la expresión:
E( X ) xf ( x) dx
Ejemplo.
La vida útil de un objeto en miles de horas, es una variable aleatoria continua X cuya función de
densidad de probabilidad es:
x
1 , si 0 x 2
f ( x) 2
0, en el resto
Calcular la esperanza de vida del objeto.
Solución.
2
2 x x2 x3 2
E( X ) xf ( x)dx x 1 dx
0
2 2 60 3
Entonces, puede esperarse que la vida útil promedio del objeto sea de (2/3)1000 666.67
horas.
VARIANZA DE UNA VARIABLE ALEATORIA CONTINUA. Sea X una variable aleatoria con
distribución de probabilidad f (x) y con media igual a . La varianza de X es:
X2 E[( X ) 2 ] ( x ) 2 f ( x)dx
o
σ2 = E [X2]-(E [X])2
Ejemplo.
Calcule la varianza para el ejemplo anterior.
Solución.
σ2 = E [X2]-(E [X])2
2
E( X )
3
2
2 x
2 x x3 2
E( X 2 ) x f ( x)dx x 1 dx
2
0
2 2 60 3
Luego,
σ2 = - ( )2 = 0.23
1. DISTRIBUCIONES DISCRETAS.
A. DISTRIBUCION DE BERNOULLI.
Las condiciones que debe cumplir el experimento aleatorio para que sea de Bernoulli son:
- El experimento debe tener solo dos resultados posibles: éxito (E) y fracaso (F).
- Los resultados deben ser mutuamente excluyentes.
- El experimento solo debe ser ejecutado una sola vez.
Definición. La variable aleatoria discreta X tiene distribución de Bernoulli si:
pxq1-x , x = 0, 1 0 < P < 1, P + q = 1.
f(x )=P ( X = x) =
0 , en otro caso.
0.9x 0.11-x, x = 0, 1
f(x) = P(X = x) =
0, en otro caso
A. DISTRIBUCION BINOMIAL.
La distribución binomial nos permite analizar el número de éxitos que pueden obtenerse en la
repetición de “n” experimentos en las mismas condiciones. se caracteriza por qué:
1. Las n pruebas son estadísticamente independientes.
2. Los resultados de cada prueba son dos mutuamente excluyentes, éxito (E) y fracaso (F).
3. La probabilidad p de éxito es invariante (constante) en cada una de las pruebas.
(Probabilidad de fracaso (F): q = 1-p).
Definición. Se denomina variable binomial a la variable aleatoria X definida en como el
número de éxitos que ocurren en las n pruebas de Bernoullí, tal que su función de probabilidad
f(x) es:
n
P[ X x] p x q n x , x 0,1,2,3,..., n.
f(x)= x
Luego, si X es una variable aleatoria discreta que se distribuye como una binomial, entonces,
escribimos: X ~ B(n, p ) , cuyas propiedades son:
a) E ( X ) np , b) 2 Var ( X ) np(1 p) .
Algunos ejemplos que pueden modelarse con la distribución binomial:
- Se decide lanzar un producto comercial en 10 ciudades con una probabilidad de éxito
constante, y se tiene interés en conocer en cuantas ciudades se puede tener éxito.
- En un día cualquiera, se prenden 30 computadoras en un salón y se desea conocer el número
de computadoras que funcionan correctamente.
- En una empresa trabajan 40 obreros. Se desea analizar la cantidad de obreros que faltan
diariamente.
Ejemplo.
La probabilidad de que cierto tipo de objeto pase con éxito una determinada prueba es 3/4. Se
prueban 10 de tales objetos. Si X es la variable aleatoria que se define como el número de
objetos que no pasan la prueba:
a) Determine la función de probabilidades de X.
b) Calcule la media y la desviación estándar de X.
c) Calcular P[7 X 9].
Solución.
a) Cada uno de los objetos puede no pasar la prueba (E) o puede pasar la prueba (F). La
probabilidad de que el objeto no pase la prueba es P = 1/4 y de que pase la prueba es q = 3/4,
además n = 10. La distribución de probabilidad X es entonces,
x 10 x
10 1 3
f ( x) P[ X x] , x 0,1,2,3,...,10
x 4 4
b) La media de esta distribución es np 10(1/4) 2.5
Su desviación estándar es:
1 3
np(1 p) 10 1.37.
4 4
8 10 8 9 10 9
10 1 3 10 1 3
c) P[7 X 9] = P [X = 8 ] + P [ X = 9 ] 8 4 4 + 9 4 4
= 0.0004.
USO DE LA TABLA BINOMIAL
Si X B ( 8, 0.40 ), hallar las siguientes probabilidades. (n =…….. y P =……..)
1. P( X ≤ 4 ) =
0 1 2 3 4 5 6 7 8 X
2. P( 2 < X ≤ 5) = P ( X ≤ ) – P ( X ≤ ) = - =
0 1 2 3 4 5 6 7 8 X
3. P ( X < 6 ) = P ( X ≤ ) =
0 1 2 3 4 5 6 7 8
4. P ( X ≥ 4 ) = 1 – P ( X ≤ )=1- =
0 1 2 3 4 5 6 7 8 X
5. P ( 2 < X < 7 ) =
0 1 2 3 4 5 6 7 8 X
6. P ( X > 5 ) =
B. DISTRIBUCION DE POISON.
Esta distribución se utiliza para modelar el número de ocurrencias de un determinado suceso o
evento durante un periodo de tiempo o en una región plana. La variable aleatoria
correspondiente asume valores 0, 1, 2,…..etc.
Ejemplo.
- Número de llamadas que recibe una central telefónica en el período de un minuto.
- Numero de veces que se cuelga una computadora durante un mes.
- Número de fallas en la superficie de una cerámica rectangular.
- Número de bacterias en un volumen de un mt3 de agua.
- El número de asaltos que ocurren durante una semana en la ciudad de Piura.
Definición. Una variable aleatoria discreta X, cuyos valores posibles son: 0, 1, 2,..., tiene
distribución de Poisson con parámetro ( 0) y se escribe X P (), si su función de
probabilidad es:
e ( ) x
f ( x) P[ X x] , x 0,1,2,...
x!
λ : Promedio de ocurrencia del suceso en un periodo de tiempo o región plana.
P(), entonces, a) Media: , b) Varianza:
2
Si X
Ejemplo.
Suponga que llegan en forma aleatoria una serie de llamadas a una central telefónica con un
promedio de tres llamadas por minuto. Calcular la probabilidad de que en el periodo de un
minuto
a1) no ocurra llamada alguna, a2) ocurran al menos 4 llamadas
b) Si cada llamada cuesta S/.0.50, ¿cuánto es el costo esperado por llamada?
Solución.
Sea X : número de llamadas que ocurren en el período de un minuto. Entonces
P ( ) , donde:
X
3 : Promedio del número de llamadas por minuto.
a) La probabilidad de que ocurran k llamadas en el período de un minuto es:
e ( ) k e 3 (3) k
P[ X k ] , k 0,1,2,..., etc.
k! k!
a1) La probabilidad de que no ocurra llamada alguna en el periodo de un minuto es:
e 3 (3) 0
P[ X 0]
0! 0.0498.
a2) La probabilidad de que ocurran al menos 4 llamadas en el periodo de un minuto es:
e 3 3 k
3
P[ X 4] 1 P[ X 3] 1 1 0.64723 0.35277.
k 0 k!
b) Sea C el costo por llamada, entonces, C 0.5 X , y
E (C ) 0.5 E ( X ) 0.5 3 1.5
USO DE LA TABLA.
Si X P(8) , hallar las siguientes probabilidades:
1. P ( X = 5 ) = 0.092
2. P ( X ≤ 7 ) = 0.454
3. P ( 4 ≤ X ≤ 9 ) = P ( X ≤ 9 ) – P ( X ≤ 3 ) = 0.718 – 0.043 = 0.675
4. P ( X < 6 ) = P ( X ≤ 5 ) = 0.192
5. P ( X ≥ 3 ) = 1 – P ( X ≤ 2 ) = 1 – 0.014 = 0.986
2. DISTRIBUCIONES CONTINUAS.
1 X 2 x
1 2
f ( x) e
2 , .
Donde: , > 0 .
Su grafica:
2
e dx 1.
1. El área total bajo la curva vale la unidad, es decir:
2
2. Es de forma acampanada y simétrica con respecto al eje vertical donde X ,
3. Tiene al eje X como una asíntota horizontal, ya que la curva nunca atraviesa el eje
horizontal solo la rosa.
4. Tiene puntos de inflexión en x , y x , por tanto, es cóncava hacia abajo
en el intervalo x , y cóncava hacia arriba en cualquier otra parte.
5.
( , ): Incluye el 68.26% de las observaciones.
( 2 , 2 ): Incluye el 95.45% de las observaciones.
( 3 , 3 ): Incluye el 99.73% de las observaciones.
Si la variable aleatoria X tiene distribución normal N ( , ) , entonces,
2
a) E ( X ) , b) Var ( X ) .
2
2
Su grafica:
0 Z
Z tiene media igual a cero y varianza igual a uno, esto es,
E ( Z ) 0 y Var ( Z ) 1
Además, la probabilidad acumulada:
1 x 2
x 1 z 1
P[ X x] dx
2
e 2
e z 2 dz P[ Z z ].
F (x) =
2
2
La gráfica de la función de distribución acumulada F(x) = (z ) (P (X<x) = P (Z<z)) es la parte
sombreada de:
P (X<x) = P (Z<z)
Nota:
- Una porción de área bajo la curva es una probabilidad.
- Sean a y b dos números reales tal que a < b, entonces:
P(a≤x≤b)=P(≤z≤ )
-P(a≤X≤b)=P(a<X≤b)=P(a≤X<b)=P(a<X<b)
0 Z
2. P( Z < 2.47) =
0 Z
3. P( 0.58 ≤ Z ≤ 1.25 ) =
0 Z
4. P ( Z > 1.72 ) =
0 Z
5. P ( X < - 0.48 ) =
0 Z
6. P ( X > -1.04 ) =
0 Z
7. P ( -1.24 < Z < 3.12 ) =
0 Z
0 Z
2. P ( Z < z0 ) = 0.9608
0 Z
0 Z
4. P ( Z ≤ z0 ) = 0.88
0 Z
5. P ( -z0 ≤ Z ≤ z0 ) =
-z0 0 z0 Z
Ejemplo.
Si X N (600 , 1002), µ= , σ2 =
Hallar:
1. P ( X ≤ 400 ) = P ( X ≤ 400 )=P(Z≤-2)=
2. P ( 450 ≤ X ≤ 700 ) =
600 X 0 Z
3. P ( X > 740 ) =
600 X 0 Z
Ejemplo.
El tiempo de permanencia de un usuario de internet tiene distribución normal con media 90
minutos y desviación estándar de 15 minutos.
a) Si se elige un usuario al azar, ¿Cuál es la probabilidad de que demore menos de 100
minutos?
b) Si se elige un usuario al azar; ¿Cuál es la probabilidad de que se demore más de 80 minutos
pero menos de 130?
c) ¿Qué porcentaje de usuarios demoran más de 140 minutos?
d) Si la cabina cuenta con una población de aproximadamente 500 usuarios, ¿Cuántos usuarios
demoran menos de 85 minutos?
e) ¿Cuál es el tiempo mínimo que demoran el 90% de los usuarios?
f) ¿Cuál es el cuartil superior (Q3) de los tiempos de permanencia de los usuarios de internet?
Solución:
X: Tiempo de permanencia (minutos)
µ= , σ=
X N(90 , 152)
a) P ( X < 100) = P ( X < 100 )=
90 X 0 Z
b) P ( 80 < X < 130 ) =
90 X 0 Z
c) P ( X > 140) =
90 X 0 Z
d) P ( X < 85 ) =
90 X 0 Z
N = 500
:
e)
x0 90 X
P ( X > x0 ) = 0.90 P(X- > x0 - ) = P ( Z > z0 ) =
0 Z
f) P ( X < x0 ) = 0.75 o p ( X > x0 ) = 0.25
P(X < x0 ) = P ( Z < z0 ) =
90 x0 0 z0 Z
B. DISTRIBUCION t-STUDENT.
Definición. Se dice que una variable aleatoria continua T se distribuye según t-student con r
grados de libertad y se representa por T ~ t (r ) , si su función de densidad es,
(r 1) 2 t 2
( r 1) 2
f (t ) 1 , < t < ,
(r 2) r ( ) r
Donde:
r es un entero positivo ( n = r ).
Г: Función gamma
Su gráfica es de forma campanoide igual que la normal, la diferencia es que la distribución t
tiene o encierra una mayor área en los extremos.
Propiedades:
1. Si X tiene distribución t-Student con r grados de libertad, entonces su media y su varianza
son respectivamente.
r
a) 0, b) 2 , r 2.
r2
2. Su gráfica tiene forma de campana de Gauss, simétrica en cero.
3. La varianza de la distribución t es mayor que de la distribución N (0,1) . Pero cuando
r , la varianza de la t tiende a 1 y por lo tanto se aproxima a una distribución normal.
La aproximación es buena, si r 30 .
4. Se realiza para realizar inferencia estadística con respecto a una media poblacional µ ya sea
mediante intervalos de confianza o pruebas de hipótesis.
Uso de tabla.
Ejemplo.
Si X t (20), calcular:
1. P ( X > 1.725 ) =
0 1.725 X
2. P ( X < 2.086 ) =
0 2.086 X
3. P ( 1.325 < x < 2.528 ) = P ( X )–P(X )=
0 1.325 2.528 X
4. P ( X > 2 ) =
0 2 X
Calculo del punto x0.
Ejemplo.
a) P[ X x 0 ] 0.995
0 x0 X
b) P[ X x0 ] 0.05
X0 0 X
c) P[ X x0 ] 0.01
0 x0 X
d) P[ x0 X x0 ] 0.95
-x0 0 x0 X
e) P[ X x0 ] 0.05
X0 0 X
Definición. Se dice que la variable aleatoria continua X tiene distribución chi-cuadrado con r
grados de libertad, y se representa por X ~ (r ) , si su función de densidad es:
2
2 r 2 r 21 x 2
x e , si x 0
f ( x) (r 2)
0, si x 0
e: 2.71828183
Г: Función gamma.
Si X , entonces E[ X ] = r y V[ X ] = 2r. La grafica:
Características:
probabilidad o un valor x0 2 ,r , mediante la relación:
P[ X 2 ,r ]
0 X0 2 ,r X
Uso de tabla.
Ejemplo.
Si X ~ ( 26 ) , determinar:
2
a) P[ X 41.92] =
0 41.92 X
b) P[ X 38.89] =
0 38.89 X
c) P[13.84 X 45.64] ,
13.84 45.64
d) P[ X 40] =
40 X
Calculo del punto x0:
Ejemplo.
Si X ~ (r ) , hallar:
a) a tal que P[ X x 0 ] 0.995 , si r 30 .
b) a y b tales que P[a X b] 0.95 , P[ X b] 0.025 , si r 13
Solución.
a) P[ X x 0 ] 0.995
0 x0 X
b)
a b
D. Distribución F
Definición. Se dice que una variable aleatoria continua X se distribuye según F con r1 y r2
grados de libertad y se representa por F ~ F (r1 , r2 ) , si su función de densidad es:
r1 2
r1 r r
1 2
r2 2 x r1 2 1
f ( x) . ( r1 r2 ) 2
, 0 x
r r r x
1 2 1 1
2 2 r2
donde r1 y r2 , son números enteros positivos. Su gráfica es:
Graficas para diferentes valores de r1 y r2 .
Si X ~ F (r1 , r2 ) , entonces:
E[X] = , con r2>2 y V[X] = , con r2>4
Características:
1. La grafica de la distribución es asimétrica a la derecha.
2. La distribución F(r1,r2) es distinta a F (r2,r1).
3. Se utiliza para realizar inferencias acerca de la variabilidad de más de dos muestras
mediante la técnica de Análisis de varianza.
Nota:
Para determinar valores de F correspondientes a áreas 0.995 , 0.99, 0.975, 0.95, o para
determinar probabilidades correspondientes a valores de c 1 se usa el teorema siguiente:
Teorema. Si X tiene distribución F con grados de libertad r1 y r2 , entonces, 1 X tiene
distribución F con grados de libertad r2 y r1 , esto es,
1
F1 ,r1 ,r2
F ,r2 ,r1
Uso de tabla.
Ejemplo.
Si X F(8,10), hallar:
a) P ( X ≥ 3.85) b) P ( X < 2.38 )
c) P ( 3.07 < X <6.12 ) c) p ( X ≤ 0.1976 )
Solución.
a)
1-α
α
0 3.85 X
b)
1-α
α
0 2.38 X
c)
0 X
d)
0 X
DISTRIBUCIONES MUESTRALES
Definición. Se denomina distribución muestral de una estadística a su distribución de
probabilidad.
Por ejemplo, a la distribución de probabilidad de la estadística media , se le denomina
distribución muestral de la media.
2
a) E ( X ) b) Var ( X )
n
c) Para n suficientemente grande, la variable aleatoria,
X
Z
n .
tiene distribución aproximadamente normal N(0,1).
NOTAS.
1. La aproximación de X a la normal N ( , n) es buena si n 30 , sin importar si la
2
n 2.
3. Si el muestreo es sin reemplazo en una población finita de tamaño N, entonces, la varianza
de la distribución de X es:
V (x)
2 N n .
n N 1
N n
Donde N 1 = f: factor de corrección para población finita.
Observar que cuando N el factor de corrección tiende a uno,
4. La desviación estándar de una estadística es conocida como error estándar.
EJEMPLO.
Suponga que una población finita N consiste de los valores:
N ={3, 4, 7, 9, 12}
a) Determine la distribución de probabilidad y calcule la media y la varianza de la población.
b) Determinar la distribución muestral de la media de las muestras de tamaño dos escogidas
con reposición.
c) Determinar la distribución muestral de la media de las muestras de tamaño dos escogidas
sin reposición.
d) Si se extraen muestras al azar de tamaño 36 con reposición, ¿cuál es la probabilidad de que
la media muestral esté entre los valores 5 y 8?
SOLUCION.
a) La distribución de probabilidad de esta población finita de tamaño N5, es la distribución
uniforme siguiente:
xi 3 4 7 9 12
f ( xi ) P[ X xi ] 1/5 1/5 1/5 1/5 1/5
La media:
µ = E[X]
N
xi
xi
N N
3 4 7 9 12
x i f ( x i ) i 1
7.
i 1 i 1 N N 5
La varianza.
V[X] = E[X2] – (E[X])2
N
N x 2
i
3 2 4 2 7 2 9 2 12 2
2 x i2 f ( x i ) 2 i 1
2 7 2 10.8.
i 1 N 5
b) Se pueden extraer Nn=52= 5 5 25 muestras de tamaño dos con reposición. Las muestras
y sus medias son las siguientes.
Luego,
X E ( X ) f ( x ) x 140 20 7.
1061 2
X2 Var ( X ) f ( x ) x 2 2 7 4.05.
20
Observar también que:
2 N n 10.8 5 2
2X n N 1 2 5 1 4.05
.
d) Sea X la media de las muestras de tamaño n 36 con reposición. La estadística X
tiene media y varianza respectivas:
X2 o Var ( X )
2 10.8
X o E ( X ) X 7, y 0.3
n 36
El error estándar de X , es X 0.3 0.55
Entonces, la variable estándar,
X X X 7
Z
0.55
X
X 1 X 2 ... X n X
P
n n
X 1 1
P E ( P ) E E ( X ) (np ) p.
a) n n n
X 1 1 p (1 p )
P2 V ( P ) V 2 V ( X ) 2 [np (1 p )] .
b) n n n n
Pp
Z
p (1 p ) n .
NOTAS.
P p (1 p )
P
1. El error estándar de es: n
N n
Observar que si N es grande con respecto a n el factor de corrección N 1 se aproxima a la
unidad.
c p
P P c P Z .
P
(c 1 /(2n)) p
P P c P Z
P
.
X np Pp
Z
np (1 p ) p (1 p ) .
Ejemplo.
En un proceso de producción el porcentaje de unidades defectuosas producidas es 4%. Para
controlar el proceso, se revisan periódicamente los objetos producidos. Calcular
aproximadamente la probabilidad de que en una muestra aleatoria de 150 unidades revisadas
se encuentren a lo más 6% defectuosos.
Solución.
P( ≤ 0.06) = P( ≤ ) = P( Z ≤ 1.25) = 0.8944
nS 2
3. DISTRIBUCION MUESTRAL DE LA VARIANZA: 2
Si X 1 , X 2 ,..., X n es una muestra aleatoria escogida de una distribución normal
N ( , 2 ) , y si,
X X
n
2
i
S2 i 1
n 1
es la varianza muestral, entonces,
a) E(S2) = σ2
2 ( n 1)
X X
n
2
i
(n 1) S 2
i 1
b) 2 2 tiene distribución .
n
X i
2
n( X ) 2
S2 i 1
c) Además n 1
Ejemplo.
Si S es la varianza de una muestra aleatoria de tamaño n 15 escogida de una población
2
P[0.3329 S 2 2 2.0814]
Solución.
n 15
la variable aleatoria 14 S tiene distribución chi-cuadrado con 14 grados
2 2
Con
de libertad,
entonces,
P[0.3329 S 2 2 2.0814] P[(14)(0.3329) 14 S 2 2 (14)(2.0814)]
P[4.66 2 (14) 29.14] 0.99 0.01 0.98.
4. DISTRIBUCION MUESTRAL DE LA DIFERENCIA DE DOS MEDIAS CON VARIANZAS
POBLACIONALES Y CONOCIDAS.
n y n2
Sean X 1 y X 2 las medias de dos muestras aleatorias independientes de tamaños 1
seleccionadas de dos poblaciones con medias 1 y 2 y varianzas 12 y 22
respectivamente, supuestas conocidas, entonces, la variable aleatoria X 1 X 2 tiene las
siguientes propiedades:
a) X 1 X 2 E X 1 X 2 E X 1 E X 2 1 2 .
2
2
2
X1 X 2
V X 1 X 2 V X 1 V X 2 1 2 .
b) n1 n 2
c) Para n1 y n 2 suficientemente grandes, la variable aleatoria:
X 1 X 2 1 2
Z
12 22
n1 n2
tiene aproximadamente distribución normal N(0,1).
NOTA.
La aproximación de Z a la normal es muy buena si n1 30 y n 2 30 sin importar si las
poblaciones son discretas o continuas y sin importar sus formas.
Pero, si las dos poblaciones son normales, entonces, la media X 1 es N ( 1 , 1 n1 ) y X 2 es
2
N ( 2 , 22 n 2 ) para n1 2 y n 2 2 .
Por la propiedad reproductiva de la normal X 1 X 2 es normal con media 1 2 y
12 22
.
varianza n1 n2
Luego, la distribución de la variable aleatoria Z:
X 1 X 2 1 2
Z
12 22
n1 n2
es normal N(0,1) para cualquier valor de n1 2 y n 2 2 .
T
X 1 X 2 1 2
S C2 S C2
n1 n2 ,
tiene distribución t-student con n1 n 2 2 grados de libertad.
2
Donde, S C la varianza común, tiene la expresión:
(n1 1) S12 (n2 1) S 22
S C2
n1 n2 2
n1 n2
tiene distribución t-student con g grados de libertad, donde,
2
S12 S 22
g n1 n2
2 2
S12 S 22
n1 n2
n1 1 n2 1 .
Si g no es un número entero se redondea al entero más cercano.
Sean
X 1 , X 2 ,... X n1 e Y1 , Y2 ,..., Yn2 dos muestras aleatorias independientes de
tamaños n1 y n 2 seleccionadas respectivamente de dos poblaciones independientes de
Bernoullí B (1, p1 ) y B (1, p 2 ) , donde p1 y p 2 son las proporciones poblaciones de éxito
respectivos. Sean las proporciones muestrales
n1 n2
Xi
i 1 X
Y
i 1
i
Y
P1 = P2
n1 y n1 n2 n2
donde X ~ B (n1 , p1 ) y Y ~ B (n 2 , p 2 )
Entonces, la variable aleatoria P1 P2 tiene una distribución de probabilidad cuyas
propiedades son las siguientes:
a) P1 P2 E P1 P2 E P1 E P2 p1 p 2 .
p 1 (1 p1 ) p 2 (1 p 2 )
P21 P2 V P1 P2 V P1 V P2 .
b) n1 n2
c) Para n1 y n 2 suficientemente grandes, la variable aleatoria estándar:
P1 P2 ( p1 p2 )
Z ,
P1 P2
2 2
7. DISTRIBUCION MUESTRAL DE LA RAZON S1 S 2
2 2
Si S1 y S 2 son las varianzas de dos muestras aleatorias independientes de tamaños
n1 y n 2 seleccionadas de dos poblaciones normales N ( 1 , 12 ) y N ( 2 , 22 )
respectivas, entonces, la variable aleatoria
S12 12
F 2 2
S2 2
tiene distribución F con grados de libertad n1 1 y n 2 1 , esto es,
F ~ F (n1 1, n 2 1) .
Observar que si 1 2 , entonces, F S1 S 2 se distribuye según F con grados de
2 2 2 2
libertad n1 1 y n 2 1 , o F ~ F (n1 1, n 2 1)
variable aleatoria:
X n 1
T
S n tiene distribución t-student con grados de libertad, o T t(n-1)
Ejemplo
Si X es la media y S 2 es la varianza de una muestra aleatoria de tamaño n 9
seleccionada de una población normal con media 90 , calcular
X 90
P[0.2353 1.1183].
S
Solución.
En este caso, la variable aleatoria:
X X 90 3( X 90)
T
S n S 9 S
se distribuye según t-student con 8 grados de libertad, esto es, T ~ t ( n 1) , entonces,
X 90 3( X 90)
P[0.2353 1.1183] P (3)(0.2353) (3)(1.1183)
S S
P 0.706 t 3.355
(8)
ESTIMACION DE PARAMETROS
1. ESTIMACION PUNTUAL. Un estimador puntual del parámetro es una variable aleatoria
(función de la muestra) ̂ , mientras que una estimación puntual es el valor numérico ˆ
del estimador.
Por ejemplo, un estimador puntual de la media poblacional µ (parámetro), es la
estadística media muestral (variable aleatoria) X , cuyo valor numérico x es la estimación
puntual del parámetro µ.
Un buen estimador, es aquel que está más cerca del parámetro que se estima. Para que un
estimador puntual sea bueno debe tener ciertas propiedades. Una de estas propiedades
es que sea insesgado.
Ejemplo.
Sea una población N=6, cuyos valores son 5, 7, 8, 6, 7 y 9. Seleccione una muestra aleatoria de
tamaño n=3, y estime la media poblacional µ.
Solución.
Muestra (n=3):…………………………………….
= = ------------------
2. ESTIMACION INTERVALICA.
INTERVALO DE CONFIANZA
Estimar un parámetro puntualmente no nos permite determinar cuan cerca se encuentra la
estimación del verdadero valor del parámetro, existiendo por lo tanto, un error que se comete.
Debido a esto es que se desea tener cierto grado de confianza de que la estimación de punto
se halle dentro de cierta variación.
La estimación por intervalos de un parámetro , consiste en construir un intervalo de
extremos cerrados [a, b] , donde a y b son números que se obtienen a partir de la
distribución de la estadística que estima puntualmente el parámetro y de los valores de la
muestra.
Con la estadística que estima al parámetro y con los valores de la muestra construimos las
variables aleatorias A y B, y además dado el numero 1-α, se tiene que:
P A B 1
Y por lo tanto decimos que [ A, B] con probabilidad 1 .
y que [a, b] es el intervalo de confianza del (1 ) 100% para , o que [a, b] con nivel
o grado de confianza del (1 ) 100% .
[A,B]: intervalo aleatorio.
[a,b]: intervalo numérico.
(1-α) o el porcentaje (1 ) 100% : nivel o grado de confianza.
α: riesgo de estimación.
Gráficamente:
Nota.
Si la población es finita de tamaño N y el muestreo es sin reposición el error estándar (E.S.) de
la media muestral es:
N n
X .
n N 1
EJEMPLO. Una muestra aleatoria de 100 hogares de una ciudad indica que el promedio de
los ingresos mensuales es de $500. Encuentre un intervalo de confianza del 95% para la media
poblacional de los ingresos de todos los hogares de esa ciudad. Suponga 100$ .
SOLUCION.
Sea X: ingreso familiar mensual de esa ciudad.
µ: Promedio de X (ingreso) que se quiere estimar en esa ciudad.
n 100 : Muestra aleatoria de 100 hogares (suficientemente grande).
x 500 : Estimación puntual de µ.
100 $ : Desviación estándar poblacional de X.
Luego el intervalo de confianza para µ es:
x z1 2 x z1 2
n n
Para el nivel de confianza 1 0.95 , se tiene α = 0.05, en la tabla normal estándar se
encuentra: z1 2 z 0.975 1.96 .
Remplazando:
100 100
500 1.96 500 1.96
100 100
480.4$ ≤ µ ≤ 519.6$
Luego, se tiene una confianza del 95% que el promedio del ingreso familiar de esa ciudad,
está en el intervalo [480.4$, 519.6$] con un máximo error de estimación de 10$.
EJEMPLO.
Un analista de investigación de mercados escoge una muestra aleatoria de 100 clientes de un
conjunto de 500 clientes de una gran tienda que declararan ingresos mayores a $5,000 y
encuentra que gastaron en la tienda un promedio de $2500. Determine el intervalo de
confianza del 95% para la media (µ) del gasto de todos los clientes con ingresos mayores a
$5,000. Suponga que la desviación estándar de la población es $300.
SOLUCION.
El intervalo de confianza del 1 en % para la media , en este caso es:
N n N n
x z1 2 x z1 2 .
n N 1 n N 1
Solución:
B) Población normal
Sea X 1 , X 2 ,..., X n una muestra aleatoria de tamaño n escogida de una población
normal N ( , ) donde la varianza 2 es supuesta desconocida, entonces, el intervalo de
2
El valor del punto t0 = t1 2, n 1 se encuentra en la tabla t-student con n-1 grados de libertad
tal que el área a la izquierda del punto vale 1- .
EJEMPLO.
Los contenidos de una muestra aleatoria de 5 latas de café instantáneo de un productor han
dado los siguientes pesos netos en gramos:
280, 290, 285, 275, 284.
Encuentre un intervalo de confianza del 95% para la media de los contenidos de todas las latas
de café del productor. Suponga una distribución normal.
SOLUCION.
Sea X el peso de los contenidos de café por lata., cuyo promedio µ se quiere estimar a partir
de una muestra aleatoria de tamaño n=5. Se supone que la distribución de X es normal con
desviación estándar no conocida, luego el intervalo de confianza será:
x t1 2, n 1 s n x t1 2, n 1 s n
Para 1 0.95 y n-1=4 grados de libertad en la tabla t-student se encuentra
t1 2, n 1 t 0.975, 4 2.776 .
remplazando:
282.8 – 2.776 ≤ µ ≤ 282.8 + 2.776
275.81≤ µ ≤ 289.79
Luego, el intervalo de confianza del 95% para es: [275.81, 289.79]
2. INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE DOS MEDIAS POBLACIONALES: µ1-µ2
a. Varianzas 12 y 22 supuestas conocidas
Sean X 1 y X 2 las medias de dos muestras aleatorias independientes de tamaños n1 y n 2
seleccionadas respectivamente de dos poblaciones con medias 1 y 2 y varianzas
12 y 22 supuestas conocidas. Si las dos poblaciones son normales, (para n1 2 , y n 2 2 )
o si las dos poblaciones no son normales pero n1 y n 2 son suficientemente grandes
( n1 30 y n 2 30 ), entonces, el intervalo de confianza del (1 – α)x100% para µ1-µ2, es:
( X 1 X 2 ) Z 1 12 n1 22 n2 1 2 ( X 1 X 2 ) Z 1 12 n1 22 n2
2 2
EJEMPLO.
Un agente de compras de una compañía está tratando de decidir si comprar la marca A o la
marca B de cierto tipo de focos ahorradores de energía. Para estimar la diferencia entre las dos
marcas se lleva a cabo un experimento con dos muestras aleatorias independientes de 10
focos de cada marca resultando las medias de vida útil promedio respectivas de 1,230 horas y
1,190 horas. Estimar la verdadera diferencia de las dos medias de vida útil, mediante un
intervalo de confianza del 95%. ¿Es acertada la decisión del agente si adquiere cualquiera de
las dos marcas?
Suponga que las dos poblaciones tienen distribución normal con desviaciones estándares
respectivas de σA = 120 y σB = 60 horas.
SOLUCION.
Las dos poblaciones tienen distribución normal con varianzas conocidas, entonces el intervalo
de confianza para la diferencia de las dos medias A B es:
( X A X B ) Z 1 A2 n A B2 n B A B ( X A X B ) Z 1 A2 n A B2 n B
2 2
Para el grado de confianza del 95% se encuentra en la tabla z1 2 z 0.975 1.96
Además:
A = 1230 , = 14400 , nA = 10
B = 1190 , = 3600 , nB = 10
Remplazando.
(1230-1190) – 1.96 ≤ A B ≤ (1230-1190) + 1.96
-43.16≤ A B ≤123.16
Dado que el intervalo contiene al cero y por lo tanto 1 2 0 [43.16, 123.16] , se
concluye que 1 2 y que no hay diferencias significativas entre las medias de las vidas
útiles de los focos de marcas A y B. Por tanto, el agente de compras puede adquirir cualquiera
de las dos marcas de focos.
b. Varianzas 1 y 2 supuestas desconocidas
2 2
( x1 x 2 ) t1 , n1 n2 2
s c2 n1 s c2 n2 1 2 ( x1 x 2 ) t1 , n1 n2 2
s c2 n1 s c2 n2 .
2 2
Donde:
= : varianza común.
t1 , n1 n2 2
2 : valor que se busca en la tabla t-student con( n1+n2-2) grados de libertad.
b.3. Poblaciones normales y varianzas supuestas distintas: 12 22
En este caso, el intervalo del (1-α)x100% de confianza para la diferencia 1 2 es:
x1 x 2 t1 2, r s12 n1 s 22 n 2 1 2 x1 x 2 t1 2, r s12 n1 s 22 n 2 .
Donde:
2
s2 s2
1 2
n1 n2
r 2 2
.
s2 s2
1 2
n1 n2
n1 1 n2 1 : grados de libertad que se redondea al entero más cercano.
EJEMPLO.
El encargado de compras de una cadena de restaurantes tiene que escoger entre dos
variedades de arroz A y B. Selecciona dos muestras aleatorias independientes de 10 bolsas de
arroz de un kilo de cada tipo de arroz y encuentra los siguientes porcentajes de granos
quebrados por kilo:
A: 6, 5, 6, 7, 4, 7, 6, 4, 3, 6.
B: 7, 6, 7, 9, 5, 8, 7, 6, 10, 8.
Estimar mediante un intervalo de confianza del 95% la diferencia promedio de porcentajes de
granos quebrados por kilos de arroz de las dos variedades. ¿Se puede aceptar que no hay
diferencias significativas entre las dos medias poblacionales?.
Suponga que los porcentajes de granos quebrados por kilo en cada variedad se distribuyen
normalmente con la misma varianza.
SOLUCION.
Sean X 1 y X 2 las poblaciones de porcentajes de granos quebrados por kilo. Se supone que
las poblaciones son normales con varianzas desconocidas supuestas iguales. Luego el
intervalo de confianza para la diferencia de medias será:
( x1 x 2 ) t1 , n1 n2 2
s c2 n1 s c2 n2 1 2 ( x1 x 2 ) t1 , n1 n2 2
s c2 n1 s c2 n2 .
2 2
t 0.975, 18 2.101.
Remplazando:
(5.4-7.3) – 2.101 ≤µ1-µ2≤ (5.4-7.3) +2.101
0.564 ≤µ1 - µ2≤ 3.236
-3.23≤µ1 - µ2≤ -0.564
Dado que el intervalo no contiene al cero, es decir, 2 1 0 no pertenece al intervalo de
confianza, no se debe aceptar que 1 2 (los promedios son diferentes).
EJEMPLO.
Se lleva a cabo un estudio para comparar el tiempo que tardan hombres y mujeres para
realizar determinada tarea. Las experiencias anteriores indican que la distribución de tiempos
tanto para hombres como para mujeres es normal con varianzas diferentes. Una muestra
aleatoria de 9 hombres y 8 mujeres han dado los siguientes tiempos en minutos:
Hombres: 12, 28, 10, 25, 24, 19, 22, 33, 17 .
Mujeres: 16, 20, 16, 20, 16, 17, 15, 21.
Mediante un intervalo de confianza del 95% para la verdadera diferencia de los promedios de
tiempos de hombres y mujeres, ¿se puede concluir que los hombres emplean mayor tiempo
que las mujeres para hacer la tarea?.
SOLUCION.
Sean X 1 y X 2 las variables aleatorias que representan los tiempos empleados por los
hombres y las mujeres respectivamente, además, estas se distribuyen normalmente cuyas
varianzas son desconocidas y supuestas diferentes, por lo tanto el intervalo de confianza será:
x1 x 2 t1 2, r s12 n1 s 22 n 2 1 2 x1 x 2 t1 2, r s12 n1 s 22 n 2 .
De las muestras dadas se obtiene:
n1 9, x1 21.111, s1 7.4237 ,
n2 8, x 2 17.625, s 2 2.326 .
Además:
r
s 2
1 n 2 s 22 n 2
2
(7.42) 2
9 (2.33) 2 8 2
9.73 10
s2
1 n1
2
s2 n
2 2
(7.42) 9 (2.33) 8
2 2 2 2 2
n1 1 n2 1 9 1 8 1
1 r 10 t
Para 0.95 y grados de libertad se tiene en la tabla 1 2 ,r 2.228Remplazando
en el intervalo:
(21.111-17.625) – 2.228 ≤ µ1-µ2 ≤ (21.111-17.625) + 2.228
2.329 1 2 9.301
Dado que 1 2 0 [2.329, 9.301] podemos concluir que 1 2 , por tanto, los
tiempos promedios de hombres y mujeres son iguales.
3. INTERVALO DE CONFIANZA PARA UNA PROPORCION: P
Si es la proporción de éxitos en una muestra aleatoria de tamaño n (n≥30), entonces, el
intervalo de confianza del (1 – α) x 100% para P es:
p (1 p ) p (1 p )
p z1 2 p p z1 2
n n
p
Intervalo de estimación del (1 ) 100% para
EJEMPLO.
Una encuestadora utilizó una muestra aleatoria de 600 electores que acaban de votar y
encontró que 240 votaron a favor del candidato A.
a) Estimar el porcentaje de electores a favor de A en toda la población, utilizando un intervalo
de confianza del 95%.
b) Si la proporción a favor del candidato A se estima en 40%, ¿cuánto es el error máximo de la
estimación, si se quiere tener una confianza del 98%?.
c) Si con la misma muestra la proporción a favor de B se estima en 38% encuentre el
intervalo del 95% de confianza para la proporción a favor de B, ¿Se puede proclamar a A como
ganador de las elecciones?.
SOLUCION.
a) La estimación puntual de la proporción p a favor de A en la población, es la proporción a
su favor en la muestra de n 600 electores; esto es, p 240 600 0.40 .
El intervalo de confianza es:
p (1 p ) p (1 p )
p z1 2 p p z1 2
n n
Remplazando:
0.40 – 1.96 ≤ P ≤ 0.40 + 1.96
0.3608 ≤ P ≤ 0.4392
Luego, el intervalo de confianza del 95% para P es de 0.3608 a 0.4392. Es decir,
P [36.08%, 43.92%] con confianza del 95%.
b) Si P se estima por p se tiene una confianza del (1 ) 100% que el error de la
P p (1 p ) N n
.
error estándar de es: n N 1
EJEMPLO.
Un fabricante afirma que su nuevo producto de consumo popular prefieren más los hombres
que las mujeres. Para comprobar tal afirmación, se toma una muestra aleatoria de 250
hombres y otra de 200 mujeres, y se encuentra que 175 hombres y 120 mujeres prefieren el
nuevo producto. Utilizando un intervalo de confianza del 95% para la verdadera diferencia de
proporciones de preferencias entre los hombres y las mujeres, ¿se puede concluir que el
fabricante del nuevo producto tiene la razón?.
SOLUCION.
El intervalo desde confianza para este caso es:
p1 (1 p1 ) p 2 (1 p 2 ) p (1 p1 ) p 2 (1 p 2 )
p1 p 2 z1 2 p1 p 2 p1 p 2 z1 2 1
n1 n2 n1 n2
De los datos del problema se obtiene:
p1 175 250 0.7 , p 2 120 200 0.6 , n1=250, n2=200
1
Para 0.95, se tiene z1 2 z 0.975 1.96.
Remplazando:
0.7(1 0.7) 0.6(1 0.6) 0.7(1 0.7) 0.6(1 0.6)
0.7 0.6 1.96 p1 p 2 0.7 0.6 1.96
250 200 250 200
0.0118 p1 p 2 0.1882.
Dado que el intervalo resultante no contiene el valor cero, debemos concluir que las
proporciones de preferencias en la población son diferentes, esto es, p1 p 2 y dado que el
intervalo contiene valores positivos, hay razones para concluir que p1 p 2 .
(n 1) s 2 (n 1) s 2
2
2
12 2, n 1 2, n 1
n 1
Sea Los valores, 2, n 1 y 1 2, n 1 se hallan en la tabla chi-cuadrado con
2 2
grados de
libertad y con áreas acumuladas respectivas de 2 y 1 2 .
Un estimador puntual de la varianza es la varianza muestral
2
n
X X
2
i
S2 i 1
n 1
EJEMPLO.
Una máquina produce piezas metálicas en forma cilíndrica. Para estimar la variabilidad de los
diámetros, se toma una muestra aleatoria de 10 piezas producidas por la máquina
encontrando los siguientes diámetros en centímetros:
10.1, 9.7, 10.3, 10.4, 9.9, 9.8, 9.9, 10.1, 10.3, 9.9.
Encuentre un intervalo de confianza del 95% para la varianza de los diámetros de todas las
piezas producidos por la máquina. Suponga que los diámetros de las piezas se distribuyen
según la normal.
SOLUCION.
El intervalo para este caso es:
(n 1) s 2 (n 1) s 2
2
2
12 2, n 1 2, n 1
Con 0.05 , n 10 y r n 1 9 grados de libertad, en la tabla chi-cuadrado se
encuentran:
2 2, n 1 = 02.025, 9 = 2.70 y 12 2, n 1 = 02.975, 9 = 19.02
De los datos de la muestra se encuentra s 0.056.
2
0.0265 2 0.1867.
Observar que, el intervalo de confianza del 95% para la desviación estándar es:
0.1628 0.432.
2 2
Sean S1 y S 2 las varianzas de dos muestras aleatorias independientes de tamaños
n1 y n 2 seleccionadas de dos poblaciones normales respectivas con varianzas 12 y 22 ,
s12 12 s12
f 2, r2 , r1 2 2 f1 2, r2 , r1
s 22 2 s2
Dado el grado de confianza 1 , en la tabla de distribución F ~ F (r1 , r2 ) se pueden
encontrar los valores f 2, r1 , r2 y f 1 2, r1 , r2 , donde:
r1=n1-1 y r2=n2-1
EJEMPLO.
Se quiere comparar la variabilidad de todas las ventas mensuales de una compañía A con la
variabilidad de su competidora la compañía B. Se sabe que todas las ventas de A y de B se
distribuyen normalmente. Se han tomado dos muestras aleatorias de ventas; una de 8
meses de A y otra de 6 meses de B obteniéndose las siguientes ventas:
Muestra de A: 17, 23, 21, 18, 22, 20, 21, 19.
Muestra de B: 13, 16, 14, 12, 15, 14.
Mediante un intervalo de confianza del 95% para 1 2 . ¿Se puede concluir que son iguales
2 2
Remplazando:
4.13 2 4.13
0.146 12 5.29
2 2 2
CAPITULO IV
PRUEBAS DE HIPOTESIS
Mediante el uso de algunos métodos estadísticos se tomaran decisiones sobre poblaciones,
a partir de los resultados de una muestra aleatoria escogida de esa población. Para tomar
decisiones estadísticas se debe partir de afirmaciones o conjetura, que pueden ser verdaderas
o no, con respecto a la población en el que estamos interesados. Una conjetura hecha sobre
una población o sobre sus parámetros deberá ser sometida a comprobación experimental con
el propósito de saber si los resultados de una muestra aleatoria extraída de esa población,
contradicen o no tal conjetura.
4.1 HIPOTESIS ESTADISTICA.
Una hipótesis estadística es cualquier afirmación o conjetura que se hace acerca del tipo de
distribución de una o más poblaciones o bien referirse al valor o valores de uno o más
parámetros de la distribución conocida su forma.
Básicamente se asume conocida la forma de la distribución de la población. En este caso, las
hipótesis estadísticas consisten en suponer que los parámetros, que definen a la población,
toman determinados valores numéricos.
Por ejemplo, son hipótesis estadística:
1. La altura media de un tipo de objetos es 20 centímetros (μ = 20cm.).
2. La proporción de objetos defectuosos producidos por cierto proceso nunca es superior al
10% (P≤10%).
3. La varianza del diámetro de cierto tipo de objetos es 0.25 cm2 (σ2=0.25cm2).
4. Son iguales las medias de dos tipos de mediciones independientes X e Y que se distribuyen
normalmente con varianza común 2 (μx=μy).
Tipos de error
Errores tipo I, error que se comete al rechazar una hipótesis nula H 0 cuando ésta realmente
es verdadera.
Error tipo II, error que se comete al aceptar una hipótesis nula H 0 cuando en realidad es
falsa.
Con α determinado se espera que de 100 resultados muestrales en 100% de las veces se
rechazará la hipótesis nula H 0 cuando realmente es verdadera.
Para una muestra aleatoria de tamaño n seleccionada de la población en estudio, si aumenta,
entonces disminuye, y si aumenta, entonces disminuye. Lo ideal es disminuir las
probabilidades de cometer esos dos tipos de errores.
Z z1 2 o Z z1 2
Región crítica bilateral
Si se rechaza H 0 se dice que el valor de Z es significativo con un riesgo cuyo valor es .
Z z1
EJEMPLO.
Un determinado proceso de empaquetar un producto está controlado, si el peso medio del
producto empaquetado es 400 gramos. Si en una muestra aleatoria de 100 paquetes del
producto se ha encontrado que el peso medio es de 395 gramos, ¿Se podría concluir que el
proceso está fuera de control al nivel de significación 5%?. Suponga que el peso de los
productos empaquetados se distribuye normalmente con desviación estándar de 20 gramos.
SOLUCION.
Sea X la variable aleatoria definida como el peso de los paquetes del producto. Se supone que
la distribución de X es N, (20)2.
1. Hipótesis: H 0 : = 400 uo (el proceso está controlado).
H 1 : 400 uo (el proceso está fuera de control)
HIPÓTESIS BILATERAL O DE DOS COLAS
- 1.96 1.96
R.C. R.C.
R.R. R.R.
RC {Z 1.96 o Z 1.96}
5. Cálculos: De los datos se tiene:
n = 100, x = 395, = 20,
x 0 395 400
Z 2.5
n 2
6. Decisión: Puesto que Z 2.5 R.C, debemos rechazar H 0 y concluir con un riesgo de 5%,
que el proceso de empaquetar no está controlado.
Dado que P 0.0124 0.05 , se debe rechazar H 0 , con un riesgo 0.05 . Una región
crítica de tamaño 0.0124 es muy pequeña y, por lo tanto, es poco probable que se cometa
error tipo I.
EJEMPLO.
Al estudiar si conviene tener o no una sucursal en la ciudad de Piura, la gerencia de una
gran tienda comercial de Lima, establece el siguiente criterio para tomar una decisión: Abrir
la sucursal sólo si el ingreso promedio familiar mensual en dicha ciudad es no menos de $500
y no abrirla en caso contrario. Si una muestra aleatoria de 100 ingresos familiares de esa
ciudad ha dado una media de $480. ¿Cuál es la decisión a tomar al nivel de significación del
5%?.
SOLUCION.
Sea X: ingresos familiares mensuales de Piura ($).
1. Hipótesis: H 0 : 500 (Uo) (se abre la sucursal).
H 1 : < 500 (uo) (no se abre la sucursal).
HIPOTESIS COLA IZQUIERDA
2. Nivel de significación: 0.05.
3. Estadística: Población no normal, n 100 , 80 , la estadística apropiada es:
X
Z
n
cuya distribución es aproximadamente normal N(0,1).
4. Región crítica: Si se supone verdadera la hipótesis nula H 0 para 0.5 y la alternativa
unilateral cola a la izquierda, en la distribución de Z ( X 500) (80 / 100 ) , se
z
-1.645 0
R.C.
Luego, la región crítica en la variable Z es: RC {Z 1.645}
5. Cálculos: De la muestra se tiene, x 480
x 500 480 500
z 2.5,
80 100 8
6. Decisión: Dado que z 2.5 R.C, debemos rechazar H 0 y concluir con no abrir la
sucursal en la ciudad de Piura.
A) Población no normal
Si la población no tiene distribución normal y si la varianza es desconocida, para probar
hipótesis acerca de la media , sólo si, el tamaño de la muestra es grande ( n 30 ), se utiliza
la estadística:
X 0
Z
n
cuya distribución es aproximadamente N(0,1). La desviación estándar se estima
puntualmente por s .
Luego, las regiones críticas de la pruebas de H 0 : 0 contra cualquiera de las tres
alternativas H 1 : 0 ó H 1 : 0 ó H 1 : 0 son las mismas (aproximadamente) de la
sección anterior.
B) Población normal
Si la población tiene distribución normal N ( , ) , donde y son parámetros
2 2
Esto es:
R.C. {T t1 2, n 1 o T t1 2, n 1 }
Regla de decisión: Se rechazará H 0 con riesgo , si T R.C. (o, si T R. A ). No se
rechazará H 0 en caso contrario.
2) Prueba unilateral de cola a la derecha
Si se prueba H 0 : 0 contra H 1 : 0 , dado el nivel de significancia , se determina el
valor t1 , n 1 y construimos la región critica:
EJEMPLO.
Las cajas de cierto tipo de cereal procesadas por una fábrica deben tener un contenido
promedio de 160 gramos. Por una queja ante el defensor del consumidor de que tales cajas de
cereal tienen menos contenido, un inspector tomó una muestra aleatoria de 10 cajas
encontrando los siguientes pesos de cereal en gramos:
157, 157, 163, 158, 161, 159, 162, 159, 158, 156
¿Es razonable que el inspector multe al fabricante?. Utilice un nivel de significación del 5% y
suponga que los contenidos tienen distribución normal.
SOLUCION.
Sea X: pesos de las cajas del cereal (gramos).
Se supone que la distribución X es normal con media y varianza 2 desconocidas.
1) Hipótesis: H 0 : µ 160(uo)(No multa al fabricante)
H 1 : 160 (uo) (Multa al fabricante)
2. Nivel de significación 0.05
3. Estadística: Población normal, con varianza desconocida y n 10 . Si H 0 : 160 es
verdadera, la estadística es
X 160
T
s n
que se distribuye según una t-Student con n – 1 = 9 grados de libertad.
4. Región crítica: Con 0.05 y para una prueba de hipótesis unilateral cola a la izquierda, en
la tabla de probabilidades de t-Student se encuentra: t 0.95, 9 1.833.
-1.833 0 t
R.C.
Consecuentemente, la región crítica es: RC {T 1.833}
5. Cálculos: De los datos de la muestra se obtiene:
x s
n 10, 159, 2.309, error estándar: s n 0.73
x 160 159 160
T 1.37.
s n 0.73
6. Decisión: Dado que T 1.37 R.C, debemos aceptar H 0 concluimos que no se debe multar
al fabricante.
sea el caso.
Luego, la estadística
X 1 X 2 1 2
Z
12 n1 22 n 2
tiene distribución exactamente o aproximadamente normal N(0,1).
Si suponemos verdadera la hipótesis nula H 0 : 1 2 o 1 2 0 , la estadística de
prueba es:
X1 X 2 ~ N (0, 1)
Z
12 n1 22 n 2
Z
X 1 X 2 d 0
.
2
1
n1 22 n 2
cuya distribución es exactamente o aproximadamente normal N(0,1), según sean las dos
poblaciones normales o no.
EJEMPLO.
Un fabricante quiere comparar dos marcas de máquinas, A y B; para fabricar un tipo de
artículo. Observa dos muestras aleatorias de 60 artículos procesados por A y B
respectivamente y obtiene el tiempo que demoran en fabricar el producto, encontrando que
las medias respectivas son 1,230 y 1,190 segundos.
Suponga 1 120 y 2 90 segundos.
a) Al nivel de significación del 5%, ¿se puede inferir que la máquina B es más rápida que la
máquina A?.
b) Al nivel de significación del 5%, ¿se puede inferir que la media de B es menor que la media
de A en menos de 7 segundos?.
SOLUCION.
Sean X 1 y X 2 los tiempos de proceso con las máquinas A y B respectivamente y A y B
sus medias respectivas.
Se desconocen las distribuciones de probabilidades de X 1 y X 2 , pero las muestras son
grandes.
a)
1. Hipótesis:
H0 : A B
H1 : A B
2. Nivel de significación: 0.05.
3. Estadística: Si suponemos verdadera la hipótesis H 0 y para muestras grandes, la estadística
apropiada es:
X1 X 2
Z
2
1
n1 22 n 2
4. Región crítica: Para 0.05 y una prueba unilateral de cola a la derecha, en la distribución de
Z se encuentra el valor z 0.9500 1.645 . Luego, la región crítica es,
01.645
R.C.
R.C. {Z 1.645}.
5. Cálculos:
n1 n 2 60 , x1 1,230, x 2 1190 , A 120 y B 90
E.SError estándar 2
A
n1 B2 n2 19.365
x1 x 2 1,230 1,190
z 2.07.
ES 19.365
6. Decisión: Ya que z 2.07 R.C., debemos rechazar H 0 y concluir que la maquina B utiliza
menor tiempo en el proceso de fabricación,
b) Probaremos:
H 0 : 1 2 7
H 1 : 1 2 7 .
Si H 0 es verdadera, la estadística de la prueba es
Z
X 1 X 2 7
~ N (0, 1)
2
A n1 B2 n2
Rgión crítica: al nivel 0.05 es la misma del caso a)
R.C. {Z 1.645}.
( x1 x 2 ) 7 (1230 1190) 7
zk 1.7.
ES 19.365
Ya que z k 1.7 R.C., rechazamos H 0 y concluimos que la máquina B utiliza un tiempo
promedio menos de 7 segundos debajo del tiempo promedio de A.
B) Varianzas 1 y 2 supuestas desconocidas
2 2
i) Poblaciones no normales
Si las dos muestras aleatorias independientes de tamaños n1 y n 2 se seleccionan
respectivamente de dos poblaciones cuyas distribuciones son no normales con varianzas 1 y
2
22 supuestas desconocidas, entonces, siempre que los tamaños de las muestras sean
grandes; n1 30 y n 2 30 (los parámetros 1 y 2 se estiman respectivamente por
s1 y s 2 ). Para probar la hipótesis nula H 0 : 1 2 0 contra una alternativa bilateral o
unilateral, se utiliza la estadística:
Z
X 1 X 2 ( 1 2 )
s12 n1 s 22 n2
Cuya distribución es aproximadamente normal N (0,1) .
Las regiones críticas y las reglas de decisión son las mismas del método con varianzas
conocidas.
ii) Poblaciones normales
Sean X 1 y X 2 las medias y S12 y S 22 las varianzas de dos muestras aleatorias
independientes de tamaños n1 y n 2 respectivamente seleccionadas de dos poblaciones
normales con medias 1 y 2 y varianzas 1 y 2 desconocidas.
2 2
r
s 2
1 n1 s 22 n2 2
s 2
1 n1
2
s2 n
2 2
2
n1 1 n2 1
El cual se redondea al entero más cercano.
Las regiones críticas y las reglas de decisión son similares a los del caso anterior, pero con r
grados de libertad.
EJEMPLO.
Una medicina A es aplicada a 10 pacientes aquejados de cierta enfermedad. Otra medicina B
es aplicada a otros 9 pacientes aquejados de la misma enfermedad. Los tiempos de
recuperación de los pacientes, en días, fueron los siguientes:
Medicina A: 6, 5, 6, 7, 4, 7, 6, 4, 3, 6.
Medicina B: 7, 6, 7, 9, 5, 8, 7, 6, 8.
Utilizando un nivel de significación del 5% y suponiendo poblaciones normales,
a) ¿Se puede aceptar la hipótesis nula que son iguales las medias de los tiempos de
tratamiento de las dos medicinas?. Suponga que las varianzas poblacionales son iguales.
b) ¿Cuál de las medicinas es más eficaz?
Solución.
Sean X 1 y X 2 las variables aleatorias que representan los tiempos en días de tratamiento
de las medicinas A y B respectivamente. Se supone que X 1 ~ N ( 1 , 12 ) y
X 2 ~ N ( 2 , 22 ) .
a) Prueba de la diferencia de las dos medias.
1. Hipótesis:
H 0 : 1 2
H 1 : 1 2
2. Nivel de significación: 0.05.
3. Estadística de la prueba: Si se supone H 0 verdadera y dado que se supone que las varianzas
poblacionales son iguales, la estadística adecuada es:
X1 X 2
T
S c2 S c2
n1 n2
que se distribuye según una tStudent con n1 n 2 2 17 grados de libertad.
4. Región crítica: Para 0.05 y una prueba de hipótesis bilateral, en la distribución t(17)
se encuentra t1 2, n1 n2 2 t 0.975, 17 2.110 .
La región crítica en la variación de T es:
-2.11 2.11 0
R.C. R.C.
Es decir R.C. { T 2.110 o T 2.110}.
5. Cálculos: De los datos se tiene:
n1 10, x1 5.4, s12 1.822 , n2 9, x 2 7.0, s 22 1.5,
(n1 1) s12 (n2 1) s 22 9(1.822) 8(1.5)
s 2
c 1.67
n1 n2 2 10 9 2
Luego la estadística x1 x 2
T
s c2 s c2
n1 n2
5.4 7
T
1.67 1.67
10 9
T = -2.694
6. Decisión: T 2.694 R.C., debemos rechazar H 0 y concluir que los promedios de los
tiempos de tratamientos con las medicinas A y B son diferentes.
b) Como las medias de las dos poblaciones son diferentes, planteamos las hipótesis:
H 0 : 1 2 (Ambas medicinas son iguales).
H 1 : 1 2 (Medicina A es mejor que B).
Con 0.05 y 17 grados de libertad, para la prueba unilateral de cola a la izquierda se
encuentra el valor crítico: t 0.95, 17 1.740. Luego, la región crítica es:
-1.740 0 T
R.C.
R.C. {T 1.740}.
Como T 2.694 R.C., debemos rechazar H 0 y concluir que la medicina A es más eficaz
que la medicina B.
EJEMPLO.
El encargado de compras de una compañía tiene que escoger entre dos marcas de máquinas A
y B, para procesar cierto producto. Por cuestiones de precio el encargado desearía comprar la
marca A a no ser que haya evidencias de que la máquina B es más veloz. Se le permitió operar
los dos tipos de máquinas durante un periodo de prueba, escogiendo al azar luego, los tiempos
en segundos de 10 objetos procesados por cada máquina:
Máquina A: 55, 56, 57, 56, 58, 53, 54, 59, 60, 57
Máquina B: 50, 51, 42, 50, 40, 60, 53, 44, 48, 58
Utilizando un nivel de significación del 5% y suponiendo poblaciones de tiempos normales.
¿Qué tipo de máquina debería comprar la empresa?. Suponga que las varianzas poblacionales
son diferentes.
SOLUCION.
Sean X 1 y X 2 las variables aleatorias que representan los tiempos empleados por las
máquinas A y B respectivamente. Se sabe que: X 1 ~ N ( 1 , 1 ) y X 2 ~ N ( 2 , 2 ) .
2 2
4.72 10 41.82 10
2
11.007 11.
s2
1 n1
2
s 22 n2
2
4.72 102 41.82 102
n1 1 n2 1 9 9
4. Región crítica: Para 0.05 y una prueba unilateral de cola a la derecha, en la distribución
t (11) , se encuentra t1 , r t 0.95, 11 1.796 . La región crítica es:
0 1.796
R.C.
R.C. {T 1.796}
5. Cálculos: De los datos se tiene:
x1 56.5 , y x 2 49.6,
Remplazando en la estadística de prueba:
x1 x 2 56.5 49.6
T 3.198.
s2
s 2
4.72 41.82
1
2
n1 n2 10 10
Decisión: Ya que t k 3.198 R.C., debemos rechazar H 0 y concluimos que se debe adquirir
la máquina B.
k 0
y si x np 0 se calcula
n
P P[ X x cuando p p 0 ] C k p 0k (1 p 0 ) n k .
n
kx
kx
y se rechaza H 0 : p p 0 si el valor de P es menor o igual que el nivel de significación .
k 0
y se rechaza H 0 : p p 0 , si el valor de P es menor o igual que el nivel de significación .
EJEMPLO.
Un fabricante afirma que el 30% de todos los consumidores prefiere su producto. Con el fin de
evaluar esta afirmación se tomó una muestra aleatoria de 400 consumidores y se encontró
que 100 de ellos prefieren dicho producto.
a) ¿Es ésta, suficiente evidencia para inferir que el porcentaje de preferencia del producto no
es 30%?. Utilice el nivel de significación del 1%.
b) Calcular la probabilidad de tomar la decisión errada de aceptar la afirmación del fabricante
cuando la verdadera proporción poblacional de aceptación del producto es 20%.
Solución.
a) Sea P el porcentaje poblacional de preferencia del producto.
1. Hipótesis:
H 0 : p 0.30
H 1 : p 0.30
2. Nivel de significación = 0.01.
3. Estadística: Si H 0 : p 0.30 , es verdadera, y n grande la estadística de prueba es:
P p0
Z
p 0 (1 p 0 ) n
que tiene distribución aproximadamente normal N(0,1).
4. Región crítica: Para 0.01 y una alternativa bilateral, en la distribución de Z se
encuentra el valor crítico z 0.995 2.575 . Luego, la región crítica es:
-2.575 0 2.575
R.C. R.C.
el intervalo:
R.C. {Z 2.575 o Z 2.575}.
x 100
p 0.25
5. Cálculo: n 400, x 100, n 400
P p0
Z
p 0 (1 p 0 ) n
Z=
Z = -2.18
EJEMPLO.
Se afirma que cierto medicamento que se prescribe para aliviar determinada enfermedad es
efectivo en más del 80% de los casos. Al parecer esta afirmación es exagerada por lo que se
suministra tal medicamento a una muestra aleatoria de 15 pacientes resultando que 13 de
ellos han experimentado alivio, ¿es ésta suficiente evidencia para concluir que realmente el
medicamento es efectivo en más del 80% de los casos al nivel de significación del 5%?.
SOLUCION .
Sea X: número de pacientes que se sanan.
n 15 casos (n < 30, muestra pequeña).
X ~ B(15, p )
P: porcentaje de pacientes que se sanan en la población de todos los pacientes que sufren la
enfermedad.
1. Hipótesis:
H 0 : p 0.80
H 1 : p 0.80 .
2. Nivel de significación: 0.05 .
3. Estadística: Si la hipótesis nula es cierta, la variable X tiene distribución binomial con n 15
y p 0.8 .
4. Región crítica: Se rechazará H 0 si el valor de P P[ X 13 cuando p 0.80] es menor
que 0.05
5. Cálculo:
15
C
15
P P[ X 13/p 0.80] k
(0.8) k (0.2) 15 k 0.3970.
k 13
valor que resulta de dos muestras aleatorias, se utiliza para probar la hipótesis nula
H 0 : p1 p 2 , contra una alternativa unilateral o bilateral.
Las regiones críticas y las reglas de decisión de esta prueba Z son similares a las anteriores.
1) Prueba bilateral. Si la prueba es:
H 0 : p1 p 2
H 1 : p1 p 2
la región crítica en los valores de Z es el intervalo:
R.C. {Z z1 2 o Z z1 2 }
2) Prueba unilateral cola derecha. Si la prueba es:
H 0 : p1 p 2
H 1 : p1 p 2
la región crítica en los valores de Z es el intervalo:
R.C. {Z z1 }
3) Prueba unilateral cola izquierda. Si la prueba es:
H 0 : p1 p 2
H 1 : p1 p 2
la región crítica en los valores de Z es el intervalo:
R.C. {Z z1 }
EJEMPLO.
Un patrocinador de un programa especial de televisión afirma que el programa representa un
atractivo mayor para los televidentes hombres que para las mujeres, pero, el personal de
producción del programa piensa que es igual el porcentaje de televidentes hombres y mujeres
que ven el programa especial. Si una muestra aleatoria de 300 hombres y otra de 400 mujeres
reveló que 120 hombres y 120 mujeres estaban viendo el programa especial de televisión.
¿puede considerarse significativa la diferencia al nivel 5%?
Solución.
0 1.645
R.C.
R.C. {Z 1.645}
5. Cálculo.
Hombres mujeres
n1 300 n 2 400
p1 120 p 2 120
p 1 120 0.4 p2
120
0.3
300 400
300(0.4) 400(0.3)
pc
300 400 = 0.34
0.4 0.3
Z
0.34(1 0.34) 0.34(1 0.34)
300 400 =2.764
X X
n
2
i
S2 i 1
n 1
Entonces, la variable aleatoria,
(n 1) S 2
X
2 χ2(n-1)
Estadística que se utiliza para probar la hipótesis acerca de una varianza (donde 02 ),
2
suponiendo verdadera la hipótesis nula H 0 : 0 .
2 2
R.C. R.C.
luego:
R.C.
luego:
R.C.
EJEMPLO.
En un proceso de fabricación, se plantea la hipótesis que la varianza de las longitudes de cierto
tipo de tornillo es 4.00 mm En una muestra de diez tornillos elegidos al azar del proceso de
producción se han encontrado las siguientes longitudes en milímetros:
71, 66, 64, 72, 69, 67, 70, 68, 65, 69.
Con estos datos, ¿se justifica la suposición que varianza verdadera es 4.00 mm?
Use el nivel de significación 0.05 , y suponga que la distribución de las longitudes es
normal.
Solución.
1. Hipótesis: H 0 : 2 4 ()
H1 : 2 4
2. Nivel de significancia: 0.05 .
3. Estadística: Población normal, n 10, y suponiendo verdadera la hipótesis nula, la
estadística de prueba es:
(n 1) S 2
X
4
Que sigue una distribución chi-cuadrado con 9 grados de libertad.
4. Región crítica: Para 0.05 y para un contraste bilateral, en la tabla chi-cuadrado se
encuentran los valores críticos: 2, n 1 = 0.025, 9 = 2.70 y 1 = 02.975, 9 = 19.02.
2 2 2
2, n 1
2.70 19.02
R.C. R.C.
5. Cálculos: De la muestra resulta s 6.77 , entonces,
2
(n 1) s 2 9 s 2 9(6.77)
x 15.23.
4 4 4
6. Decisión: Como x 15.23 R.C. no se debe rechazar H 0 y concluimos que la varianza
de la población es igual a 4 mm2.
prueba es:
S12 ~ F (r1 , r2 )
F
S 22
1) Prueba bilateral de dos colas. Si probamos:
H 0 : 12 22
H 1 : 12 22
dado un nivel de significación , en la distribución de F (r1 , r2 ) se encuentran los valores
f 2, r1 , r2 y f1 2, r1 , r2 , luego la región critica o de rechazo es:
R.C. {F f 2, r1 , r2 o F f 1 2, r1 , r2 }.
EJEMPLO 10.8.
Una compañía diseña un nuevo proceso de moldeo para reducir la variabilidad en el
diámetro de las piezas producidas. Se cree que la varianza del nuevo proceso es menor que
la varianza del proceso antiguo. Para una muestra de 8 piezas del proceso antiguo y una
muestra de 6 piezas del proceso nuevo se obtienen los siguientes diámetros en milímetros:
Antiguo: 17, 23, 21, 18, 22, 20, 21, 19.
Nuevo: 13, 16, 14, 12, 15, 14.
¿Confirman estos datos que la varianza de los diámetros con el nuevo proceso es menor que
con el proceso antiguo?.
Suponga poblaciones normales y use 0.05 .
SOLUCION.
Sean X 1 y X 2 las variables que representan los diámetros de las piezas con el proceso
antiguo y nuevo respectivamente. Las dos poblaciones se distribuyen normalmente con
2 2
varianzas desconocidas respectivas 1 y 2 .
2 2 2 2
1. Hipótesis: H 0 : 1 2 contra H 1 : 1 2 .
2. Nivel de significación: 0.05 .
3. Estadística: Poblaciones normales. Suponiendo verdadera la hipótesis nula H 0 , para
n1 8 y n 2 6 , la estadística de la prueba es:
Sˆ12
F
Sˆ 2
2