Libro Guía Estadística II

Texto guía – Estadística I (Inferencia Estadística) 1
CAPITULO I
MUESTREO: ESTADÍSTICOS Y SUS DISTRIBUCIONES
1.1. Definiciones
1.1.1. Población
En estadística 1 , el conjunto de resultados posibles de un fenómeno, o

experimento, también el conjunto de elementos con una o más características
comunes, recibe el nombre de población (universo o colectivo que en la práctica
es finito). Elemento es cada uno de los componentes de la población. El tamaño
de la población se denota por N.
Toda población se caracteriza probabilísticamente por variables aleatorias y éstas

por su campo de variación y distribuciones de probabilidad.
Ejemplo: Caracterizar el estudiante típico de la Facultad de Ingeniería Industrial

de la Universidad Tecnológica de Pereira, suponiendo que el estudio se realiza en
2004, la población será los estudiantes matriculados a los programas de la
facultad en ese año (700), ¿pregunta incluye postgrado y pregrado?, si es solo
pregrado restamos postgrado (150) y se tiene entonces xx elementos en nuestra
población de interés
Ahora que variables interesa medir a cada elemento de la población: Edad,

género, estatura, peso, No de calzado, plata en el bolsillo, veces que practica
ejercicio en la semana, mecanismo de transporte que usa para llegar a la
universidad, tiempo en minutos que tarda en viajar entre su casa y la U, entre
otras.
1.1.2. Muestra
Es un subconjunto de una población que conserva sus mismas características, su

tamaño se denota por n. Si tomamos todas las muestras posibles que se pueden
generar (ver ecuación 1), ellas constituyen el espacio muestral que llamamos .
El número de muestras posibles de tamaño n que pueden ser obtenidas de una

población de tamaño N es: NCn, es decir:
1
La Estadística es un método general, un lenguaje común, referido a conjuntos y sus
relaciones, sirve para obtener conclusiones probables de poblaciones imperfectamente
conocidas. M.G. Kendall
N!
NCn  Ecuación 1
( N  n)!n!
Una muestra puede ser vista como un espacio n dimensional con las coordenadas
x1, x2,...,xn
x  x 1 , x 2 , x 3 ,..., x n x  
La relación que existe entre población y muestra en estadística, es que esta última
puede ser representativa de la primera (y de hecho la muestra es un subconjunto
de la población) siempre que conserve sus mismas características.
La muestra es representativa de la población cuando ha sido elegida de manera

objetiva, es decir, aleatoriamente. Si la muestra es aleatoria, significa que el azar 2
está presente y el azar suprime la voluntad o inteligencia del hombre.
La aleatoriedad se relaciona con la probabilidad conocida de antemano que tiene

un elemento de ser elegido en la muestra. En el muestreo aleatorio simple existe
equiprobabilidad para los diferentes elementos.
Cuando comienza el cálculo de probabilidades, por ejemplo en el Liber de Ludo Aleae de Cardano, se
relaciona la aleatoriedad con la equiprobabilidad de los diferentes resultados, es decir, un fenómeno sería
aleatorio si todos los resultados son igualmente probables. Esta definición se aceptó con facilidad, por que los
primeros desarrollos del cálculo de probabilidades estuvieron muy ligados a los juegos de azar, en donde el
número de posibilidades es finito y el principio de indiferencia de las diferentes posibilidades puede
considerarse razonable.
Hacia finales del siglo XVIII y principios del XIX se amplía el número de situaciones consideradas aleatorias,
incluyendo no solo los juegos de azar, sino muchos fenómenos naturales. Paralelamente, se produce un
cambio en el concepto de aleatoriedad, que se hace progresivamente más formalizado, introduciendo la idea
de “independencia”, que se considera imprescindible para asegurar la aleatoriedad de un suceso en
experimentos repetidos (Batanero, Carmen. Didáctica de la estadística, 2001) .
Ejemplo: Se tiene una población de 100 bolas: 90 de color azul y 10 de color rojo,
para que una muestra sea representativa de esta población, deberá contener
bolas con colores en la misma proporción. Si se extraen 10 bolas de dicha
población y se obtiene 8 bolas azules y 2 rojas.
Esta desviación de la muestra es debido al proceso de selección, desviación que

no invalida los resultados para hacer inferencias con respecto a la población
siempre y cuando estas diferencias no sean sistemáticas.
2Azar: Del árabe zahr, flor en una cara del dado balanceado que se usaba en los juegos de mesa
o hechar suertes.
1.2. Tipos de muestreo
Las muestras pueden ser aleatorias, situación que las convierte en probabilísticas.
Para garantizar la representatividad muestral ésta debe ser elegida aleatoriamente
(es decir, objetivamente), esto permitirá cuantificar la probabilidad de error que se
puede cometer al estimar un parámetro con los resultados de una muestra.
Con reemplazo
Probabilístico
(Aleatorio)
Sin reemplazo
Muestreo
No probabilística
(A conveniencia)
1.2.1. Muestreo con reemplazo
Conduce a que los elementos de la muestra sean probabilísticamente

independientes. El elemento elegido de la muestra es observado en sus
características de interés y regresa nuevamente a la población antes de elegir el
siguiente elemento, conservando así, intacto el número de componentes de la
población y la probabilidad en la elección.
1.2.2. Muestreo sin reemplazo
Los elementos de la muestra no son independientes, es decir, a medida que

extraigo un elemento para la muestra, queda excluido de la población para la
siguiente extracción, afectando el espacio muestral. Cuando no todos los
elementos de la población tienen igual oportunidad de ser seleccionados. La
materia de inferencia estadística se basa en el muestreo con reemplazo.
El concepto de muestra nos introduce en la inferencia estadística estableciendo otro puente entre
estadística y probabilidad. Esta idea es muy importante porque todo nuestro conocimiento y juicios
sobre el mundo o las personas se basan en el muestreo. El conocimiento científico se adquiere a
partir de las experiencias empíricas y estas son siempre limitadas. La idea de muestreo tiene en sí
dos características contradictorias: representatividad y variabilidad: La representatividad indica que
la muestra se parece a la población. La variabilidad indica que una muestra puede ser diferente de
otra. (Batanero, 2000)
Ejemplo: Si en el ejemplo anterior tomamos una muestra de tamaño 2 y el

muestreo se efectúa con reemplazo la probabilidad de tomar una bola azul es de
(90/100) y la segunda bola extraída tendrá una probabilidad de (90/100); si el
muestreo se hace sin reemplazo. Las probabilidades serían las siguientes:
a) Primera extracción (90/100)

b) Segunda Extracción (89/99)
Distribución de probabilidad: de una variable aleatoria X es una descripción de las

probabilidades asociadas con los valores posibles que toma X. Para una variable
aleatoria discreta, se específica comúnmente la distribución con una lista de los
valores posibles y al frente de cada uno la probabilidad correspondiente. En
algunos casos resulta conveniente expresar la probabilidad en términos de una
fórmula. (Montgomery, 2002)
Ejemplo: Si tenemos 100 bolas de las mismas características, numeradas 1, 2, 3,

con la siguiente frecuencia: 20 con el número 1, 30 con el 2 y 50 con el 3. Hallar el
espacio muestral y la distribución de probabilidad en el muestreo, si se realiza la
extracción de dos bolas con reemplazo y luego sin reemplazo.
1.2.3. Con reemplazo.
El número de puntos del espacio muestral está dado por: Nn, es decir, N: número
de elementos distintos en la población, elevado a la n, tamaño de la muestra.
Ω = {(1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2), (3,3)}
Punto muestral Probabilidad asociada

1,1 p (1,1) = p (1) * p (1) = (20/100)*(20/100) = 0.04
1,2 p (1,2) = p (1) * p (2) = (20/100)*(30/100) = 0.06
1,3 p (1,3) = p (1) * p (3) = (20/100)*(50/100) = 0.10
2,1 p (2,1) = p (2) * p (1) = (30/100)*(20/100) = 0.06
2,2 p (2,2) = p (2) * p (2) = (30/100)*(30/100) = 0.09
2,3 p (2,3) = p (2) * p (3) = (30/100)*(50/100) = 0.15
3,1 p (3,1) = p (3) * p (1) = (50/100)*(20/100) = 0.10
3,2 p (3,2) = p (3) * p (2) = (50/100)*(30/100) = 0.15
3,3 p (3,3) = p (3) * p (3) = (30/100)*(30/100) = 0.25
Nota: p(A‫ח‬B)=p(A)*p(B), cuando los eventos A y B son independientes
1.2.4. Sin reemplazo o sin sustitución
Ω = {(1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2), (3,3)}
Punto Probabilidad asociada

muestral
1,1 P (1,1) = p (1) * p (1) / p (1) = (20/100) * (19/99) = 0.0384
1,2 P (1,2) = p (1) * p (2) / p (1) = (20/100) * (30/99) = 0.0606
1,3 P (1,3) = p (1) * p (3) / p (1) = (20/100) * (50/99) = 0.1010
2,1 P (2,1) = p (2) * p (1) / p (2) = (30/100) * (20/99) = 0.0606

2,2 P (2,2) = p (2) * p (2) / p (2) = (30/100) * (29/99) = 0.0878
2,3 P (2,3) = p (2) * p (3) / p (2) = (30/100) * (50/99) = 0.1515
3,1 P (3,1) = p (3) * p (1) / p (3) = (50/100) * (20/99) = 0.1010
3,2 P (3,2) = p (3) * p (2) / p (3) = (50/100) * (30/99) = 0.1515
3,3 P (3,3) = p (3) * p (3) / p (3) = (50/100) * (49/99) = 0.2475
Nota: p(A‫ח‬B)=p(A)*p(B/A), cuando los eventos A y B son dependientes
En el ejercicio anterior puede observarse que al comparar los dos muestreos las
probabilidades se diferencian en una pequeña proporción.
1.2.5. Variable Aleatoria
Variable aleatoria es una magnitud que puede tomar varios valores,

cotidianamente tenemos experiencias con variables aleatorias, ejemplo: el tiempo
que me demoro esperando el bus para ir a la universidad, el tiempo que me
demoro en el recorrido entre la casa y la universidad.
Las variables aleatorias pueden ser discretas y continuas, las primeras son
aquellas cuyo conjunto de resultados es contable, por su parte las continuas
toman su conjunto de valores en una escala continua.
Ejercicio: clasifique las siguientes variables aleatorias como discretas o continuas:
variable aleatoria tipo

Número de Km. que puede recorrer un vehículo con 5 galones de gasolina
El tiempo invertido para hacer 4 jugadas en un tablero de ajedrez
El número de accidentes que se presentan en un cruce
La cantidad de leche que produce al año una vaca específica
El número de huevos que pone una gallina cada mes
El número de licencias de conducción que se asignan cada mes en Pereira
Cuando en un experimento no interesan los detalles del espacio muestral, sino la

descripción numérica del resultado, por ejemplo: al lanzar la moneda tres veces no
me interesa los 8 puntos del espacio muestral, sino el número de caras que
pueden darse en esos 8 resultados
Ω = {(c,c,c), (c,c,s), (c,s,c), (s,c,c), (c,s,s), (s,c,s), (s,s,c), (s,s,s)}
En este caso la variable aleatoria, X, número de caras puede tomar los valores
0,1, 2 y 3
En el modelo de variable aleatoria hay tres conceptos básicos: su distribución,

media y varianza.
Media, valor esperado o esperanza matemática es la media aritmética de los

valores que toma la variable aleatoria si el experimento se repite en condiciones
similares.
Varianza se relaciona con la variabilidad o desviación de los datos con respecto a

la media
Distribución se refiere a la forma como se organizan los distintos valores que toma
la variable aleatoria de acuerdo con la frecuencia de ocurrencia
1.2.5. Distribución de probabilidad discreta
La variable aleatoria toma cada uno de sus valores con cierta probabilidad, en el
caso de la moneda lanzada 3 veces:
xi 0 1 2 3
P(X=xi) 1/8 3/8 3/8 1/8
Al conjunto de pares ordenados x, f(x)= P(X=x i), se le conoce como función de

probabilidad o distribución de probabilidad de la variable aleatoria X discreta si
para cada posible resultado x:
1. f(x) ≥ 0 (La probabilidad de ocurrencia del valor es como mínimo 0)

2. Σf(x) = 1 (la suma de las probabilidades de todos los valores de X es 1)
3. P(X=xi)= f(x) (f(x) es la probabilidad asociada cada valor de X)
Diagrama de barras
1.2.5. Distribución de probabilidad continúa
La variable aleatoria continua tiene probabilidad cero de tomar exactamente

cualquiera de sus valores. Casos como estatura de las personas, peso, edad,
ingreso, carga que soporta una viga, milímetros cúbicos de lluvia, etc. Estas
variables toman valores en intervalos. Usando la notación funcional, f(x) es la
función de densidad de probabilidad de la variable aleatoria X y se construye de tal
manera que el área bajo la curva limitada por el eje de las x sea igual a 1 en el
rango de X para el que se ha definido f(x). Esta función está definida en el
conjunto de los números reales y cumple que
1. f(x) ≥ 0 Para toda x Є R

2. ∫f(x)dx=1 La integral entre -∞ e ∞
3. p(a<X<b) = ∫f(x) dx La integral entre a y b
Ejemplo: Suponga que el error en la temperatura de reacción, en grados

centígrados, para un experimento controlado de laboratorio es una variable
aleatoria continua X que tiene la siguiente función de probabilidad:
 x2
 , 1  x  2
f ( x)   3
0 en cualquier caso

 2
x2 x3 2 8 1
Verificando condición 2. 

f ( x ) dx  
1
3
dx    1
9 1 9 9
1 1
x2 x3 1 1
Verificando condición 3. p (0  X  1)   f ( x)dx   dx  
0 0
3 9 0 9
1.2.5. Distribución conjunta de la muestra
Si el muestreo se realiza con reemplazo la distribución conjunta de la muestra

para variables discretas se representa de la siguiente manera:
P(X1, X2,..., Xn) = P [{ε1=X1} ∩ {ε2 = X2} ∩ . . . {εn = Xn}]

= P (ε1=X1) P (ε2 = X2). . . P (εn = Xn )
Si la variable aleatoria es continua
P(X1,X2,..., Xn) = f(X1) f(X2) . . . f(Xn)
Si el muestreo es sin reemplazo la distribución conjunta de la muestra se

representa: (La probabilidad del próximo elemento viene condicionada por las
anteriores).
Discreta P(X1, X2 . . . Xn) = ∏ P(εi=Xi / ε1=X1, . . . εi-1=Xi-1,)
Continua f(X1,X2,..., Xn) = ∏ f (Xi/X1, X2 . . . Xi-1)
1.3. Distribución de la población y distribución de la muestra
En inferencia estadística el concepto de distribución empírica de la muestra es de

gran interés, está definida en una muestra de tamaño n como
Ni
f n ( xi ) 
n
Siendo Ni el número de observaciones muéstrales menores o iguales a x i, es decir,

la frecuencia acumulada.
Ejemplo: Una bolsa contiene 1.000 bolas, todas de igual tamaño y marcadas con
cuatro números distintos, en la siguiente cuantía: 400 con el número 1, 100 con el
numero 2, 300 con el número 3 y las restantes 200 con el número 4.
El campo de variación de variable la aleatoria (ε ) enumeración de las bolas, está

integrado por los cuatro números enteros 1, 2, 3,4 y la distribución de probabilidad
de la población es:
P(x=1)=0.4
P(x=2)=0.1
P(x=3)=0.3
P(x=4)=0.2
Ahora tomamos una muestra aleatoria de tamaño 100 (con reemplazo) siendo los
resultados 42 bolas con 1, 8 bolas con el número 2, 29 bolas con el número 3 y 21
bolas con el número 4. La distribución de frecuencia de la muestra obtenida es la
siguiente:
P(x=1)=0.42
P(x=2)=0.08
P(x=3)=0.29
P(x=4)=0.21
Si comparamos la función de distribución de la población y la muestra estas no

coinciden a pesar de ser muy parecidos esto es debido a la variabilidad del
muestreo. Si tomamos otras muestras ellas tendrán su propia distribución y se
espera que se parezca a la población si son elegidos aleatoriamente. Lo anterior
significa que las características de la muestra (media, varianza) no concuerdan
con las características de la población esto debido a la variabilidad en el muestreo,
pero estas características serán muy parecidas en la medida que el muestreo sea
probabilístico.
Calculemos el primer momento muestral (media) tanto en la población, como en la

muestra.
Media de la población μ =∑ X1*P(X1)

= (1*0.4)+ (2*0.1)+ (3*0.3)+ (4*0.2)
μ = 2.3
Media de la muestra X = ∑Xi *P (Xi)

= (1*0.42)+ (2*0.08)+ (3*0.29)+ (4*0.21)
= 2.29
1.3.1. Teorema de Glivenko - Cantelli
Llamado también teorema fundamental de la estadística, este teorema afirma:

“que las características y distribución de probabilidad muestral convergen en
probabilidad a las características y distribución de probabilidad poblacional, si las
muestras son elegidas aleatoriamente”.
Estadístico: Cualquier función de los elementos muéstrales recibe el nombre de

estadístico siempre y cuando no contenga parámetros desconocidos.
Q( X )  Q( X 1 , X 2 ,..., X n )
n
Q1 ( X )  X 1  X 2  ...  X n   X i
i 1
n
( X 1  X 2  ...  X n ) Xi
Q2 ( X )   X
n i 1 n
n
( X 1  X )  ( X 2  X )  ...  ( X n  X ) )
2 2 2 (X i  X )2
Q3 ( X )   i 1
n 1 n 1
Q4 ( X )  M 1  Min( X 1 , X 2 ,..., X n )
Q5 ( X )  M 2  Max( X 1, X 2 ,..., X n )
La estadística trata con estadísticos muy concretos; los momentos muéstrales

media, varianza, covarianza y el valor mínimo y máximo de la muestra. Los
elementos que forman la muestra son variables aleatorias y cualquier función
definida en la muestra también será una variable aleatoria, por tanto, un
estadístico es una variable aleatoria que tiene su campo de variación y su
distribución de probabilidad determinados por el campo de variación de
distribución de probabilidad de la población. Dado que los distintos valores que
toma un estadístico se genera por el proceso de muestreo, su distribución de
probabilidad recibe el nombre de distribución de probabilidad en el muestreo.
El teorema Glivenko y la distribución de probabilidad en el muestreo, teorema

central del límite son las bases de la estadística sobre la cual se construye el
edificio de estimación de parámetros y pruebas de hipótesis.
Ejemplo: Una variable aleatoria X presenta los valores 1, 2 y 3 con probabilidad

0.1, 0.2 y 0.7 tomamos muestras aleatorias de tamaño 3 y consideramos como
estadístico la media. Hallar la distribución de probabilidad y el primer momento
muestral al origen (media) y el segundo momento muestral a la media (varianza).
Antes de hallar la distribución de probabilidad y los momentos muéstrales
hallemos los momentos poblacionales y grafiquemos la distribución de

probabilidad.
Media – Primer Momento poblacional

P(X)
0.7
0.2
0.1 X
E(X) = μ = ∑ Xi*P(Xi)
S2 = V(x) = E (X- μ)2
E(Xi) = ∑ Xi P(Xi) = (1*0.1)+(2*0.2)+( 3*0.7)
E(Xi) = µ = 2.6
Varianza – Segundo Momento poblacional
V(X) = E [(X- µ)2] = ∑ E(X- µ)2 P(Xi)

= ∑ Xi2 P(Xi) - 2µ ∑ Xi P(Xi) + ∑µ2 P(Xi)
= ∑ Xi2 P (Xi) - 2µ2 + µ2
= ∑ Xi2 P (Xi) - µ2
V(X) = E(Xi2) – [E(Xi)]2
E(X2) = ∑ Xi2 P(Xi)

= (12*0.1) + (22*0.2) + (32*0.7) = 7.2
V(X) = E(X2) – [E(X)]2

= 7.2 – (2.6)2
V(X) = 0.44
Para elegir todas las posibles muestras de tamaño tres recordemos el curso de
probabilidades. El número de muestras posibles con repetición y con orden es Nr =
33 = 27
11 21 31
1 12 22 32
13 23 33
11 21 31
2 12 22 32
13 23 33
11 21 31
3 12 22 32
13 23 33
Para la muestra (1, 1,1) se tiene que
X = ∑ Xi/n = 3/3 = 1
P(x1=1) = p (1)* p (1)*p (1) = 0.13 = 0.001
Para la muestra (1, 1,2) se tiene que
X = ∑ Xi/n = 4/3
P (1, 1,2) = p (1)* p (1)*p (2) = 0.12*0.2 = 0.002
A continuación se presenta todas las muestras posibles, el cálculo de la media y la

probabilidad asociada al valor de la media
MUESTRA MEDIA PROBABILIDADES DE LA

MUESTRAL MEDIA
111 1 0,001
112 4/3 0,002
113 5/3 0,007
121 4/3 0,002
122 5/3 0,004
123 6/3 0,014
131 5/3 0,007
132 6/3 0,014
133 7/3 0,049
211 4/3 0,002
212 5/3 0,004
213 6/3 0,014
221 5/3 0,004
222 6/3 0,008
223 7/3 0,028
231 6/3 0,014
232 7/3 0,028
233 8/3 0,098
311 5/3 0,007

312 6/3 0,014
313 7/3 0,049
321 6/3 0,014
322 7/3 0,028
323 8/3 0,098
331 7/3 0,049
332 8/3 0,098
333 9/3 0,343
 Distribución de la media muestral:
Se suman todas las probabilidades asociadas a cada valor diferente que tome la
media muestral.
P(X = 1) = 0.001
P(X = 4/3) = 0.006
P(X = 5/3) = 0.033
P(X = 6/3) = 0.092
P(X = 7/3) = 0.231
P(X = 8/3) = 0.294
P(X = 9/3) = 0.343
X P(X=X1) DISTRIBUCIÓN DE MUESTREO
1 0,001 3,00
4/3 0,006 2,67
5/3 0,033 2,33
2 0,092 X 2,00
7/3 0,231 1,67
1,33
8/3 0,294
1
3 0,343
0,00 0,10 0,20 0,30 0,40
P(X)
En el campo de variación de la media muestral aparecen valores que se generan en el

muestreo y que no hacen parte de la variable original.
Los momentos muéstrales de la media muestral son los siguientes:
Esperanza matemática:
E( X )=∑ X P( X 1)
= (1*0.001) + (4/3*0.006) + (5/3*0.033) + (2*0.092) + (7/3*0.231) + (8/3*0.294) +
(3*0.343)
= 2.6
Varianza:
V( X ) = E( X -µ)2 = E( X 2) – [E( X )]2

E( X 12) = (12*0.001) + (4/32*0.006) + (5/32*0.033) + (22*0.092) + (7/32*0.231) +
(8/32*0.294) + (32*0.343)
= 6.9067
V( X ) = E( X 2) – [E( X )]2
= 6.9067-(2.6)2
= 0.1467
V ( X ) 0.44
Como puede observarse la E ( X ) = E(X)=μ y V (X )    0.1467
n 3
X es un estimador de la media y la varianza de la media muestral es la varianza de la
población dividida entre el tamaño de muestra.
1.4. Características de las distribuciones en el muestreo
Se estudiaran como características de las distribuciones en el muestreo las esperanzas

y varianzas de los momentos respecto al origen y a la media, se supone que las
muestras han sido extraídas de poblaciones con media µ, y varianza 2
1.4.1. Momentos muéstrales respecto al origen
En una muestra aleatoria X su tamaño (x1, x2,..., xn) de una variable aleatoria E se define
la media con respecto al origen como a r= Σxir/n
1 n 1 n r
ar  (Xi ) n 
n i 1
  r

i 1
Xi
Puede interpretarse como el promedio de las distancias elevadas a la r de los datos al

origen.
dk+
1
d
k
0 X1 X2 Xk Xk+
X 1
d1
d2
Calculemos el valor esperado de esas distancias E r variable aleatoria, llamaremos αr a

su valor esperado
1
n
1  1
 
Ear   E  X 1r    E X 1r   r
n  n
Para r=1 (la media muestral) se tiene:
E(αr) = E(1/n∑Xir) = 1/n ∑E(Xir) = 1/n (nµ) = µ = αr
El valor esperado de la media muestral es la media poblacional, ver el ejercicio anterior

donde: μ=2.6 y E( X )=2.6
La varianza del momento R al origen es V (αr)=V (1/nΣXir)= (1/n2) Σ VXir), bajo el

supuesto que las variables son independientes se tiene:
 
2
1 1 n 1 1
n2
 V ( X r
1 ) 
n2
 V ( X ) 
n2
V ( X ) 
n
V ( X ) 
n
E ( X  E ( X)) 
1 1
(E( X2r )  (E( X r))2  (2r  r )
2
n n
Recuerde que:
E(X2r) = ∑X2r P(X) = σr2
[E(Xr)]2 = [∑Xr P (Xr)]2 = σr2

1 σ
V ( σr )  ( 2r  σ 2r )
n
Para r=1 (varianza es la media muestral)
V (σr) = 1/n (σ2r- σ12) = 1/n (σ2- σ12)

V (σr) = 1/n [E(X2) – (E(X))2]
V (αr) = σ2/n
Ver el ejercicio anterior donde σ2= 0.44 y V(X) =0.44/3 =0.16
1.4.2. Momentos muestrales con respecto a la media
Definiremos los momentos muéstrales de orden r con respecto a la media muestral X

como Mr = (1/n) Σ(X1- X ) r. Demostrándose que E (Mr)=μr+0*(1/n)
Lo que significa que los momentos muéstrales a la media no corresponde con los
momentos poblacionales (insesgado) si se aumenta n el sesgo será menor.
Interpretación geométrica
dk+1
Estamos interesados en calcular el segundo
dk momento muestral a la media (varianza).
m2 =1/n∑ (Xi- X )2
x x X x Xk+
d2
d1
Para calcular la esperanza matemática de la varianza se notan algunos cálculos.

2
1 1
S 2

n
 (Xi  X ) 
n
2
 (X i  X    )
 ( X 
1 2
S2  i  )  (X  )
n
 ( X 
1 2
S2  i  )  (X  )
n
 ( X 
1
S2  i   ) 2  2 ( X i   )( X   )  ( X   ) 2
n
 ( X 
1
S2  i   ) 2  2 ( X i   )( X   )  ( X   ) 2
n
1
S2 
n
 (X i  2)   2 ( X i   )( X   )   ( X   )2 )
 ( X 
1
S2  i   ) 2  n ( X   ) 2  2 ( X   )( n X  n  )
n
 ( X 
1
S2  i  r ) 2  n( X   ) 2  2n ( X   ) 2
n
 ( X 
1
S2  i   ) 2  n( X   ) 2
n
E (S 2 ) 
1
n
 E ( X i   ) 2  nE ( X   ) 2  Calculemos el valor
 2
 E(X i  )2   2; E(X  ) 
n
1   2
E (S 2 )     n
2

n n 
1 1
E ( S 2 )  ( n  2   2 )  ( 2 ( n  1))
n n
n 1 2
E (S 2 )   
n El valor esperado de la varianza es sesgada
Adquiere gran importancia en la inferencia estadística, la cuasivarianza muestral.
S 
2  ( X 1   )2
1
n 1
S 2  ( X 1   )2
n
( n  1) S 1  nS 2
2
n n n n 1 2
S 12  S 2  E ( S 12 )  E ( S2 ) = *  2
n 1 n 1 n 1 n
E ( S 12 )  

La cuasivarianza muestral es un estimador insesgado de la varianza poblacional en el

muestreo aleatorio con repetición para la media muestral.
1.5. Distribución de probabilidad normal
Sin lugar a dudas esta es la distribución de probabilidad más importante utilizada en la

inferencia estadística ya que muchos fenómenos físicos, químicos, biológicos,
psicológicos, etc. del mundo que nos rodea siguen este tipo de distribución. La gráfica
de la distribución se llama curva normal y tiene forma de campana. En 1733, Abraham
DeMoivre desarrollo la expresión matemática de la curva normal, proporcionando una
base sobre la cual se funda gran parte de la teoría estadística inductiva. Esta
distribución fue dada a conocer por Karl Friedrich Gauss en 1833.
También se conoce como distribución GAUSSIANA. Una variable aleatoria continua X

que tiene la distribución en forma de campana, lleva el nombre de variable aleatoria
normal, su función de densidad de probabilidad esta dada por la siguiente expresión:
( x   ) 2
1
f (X )  e 2 2
dx
2 
La forma de la curva depende de los parámetros μ y σ

π = 3.1416
σ = parámetro desviación estándar poblacional
µ = parámetro media poblacional
e = numero neperiano 2.718
X = es la variable de interés
Propiedades:
1. Simétrica
2. Asintótica: no toca el eje de las x
3. Tiene su máxima altura en la media, moda mediana.
4. La curva normal se aproxima en forma asintótica al eje horizontal, a medida que
avanza en uno u otro sentido a partir de la media.
5. El área total bajo la curva y por encima del eje horizontal es igual a 1.
b
P(a  X  b)   f ( x) dx
a
 ( x )2
b 1
P(a X b)  a 2 
e 2 2
dx
P(X)
1.5.1. Efectos de los parámetros sobre la Normal
a) Efecto de la media (μ): (varianza constante)
A medida que crece la media la distribución se desplaza sobre la derecha.

F(x)
 =5  =10  =15
b) Efecto de la varianza σ2
δ²=1σ2 = 1
δ²=5 σ2 = 5
δ²=a5 σ2 = 10
Para encontrar la probabilidad de que una variable aleatoria x distribuida normalmente,

tome un valor entre X=x1 y X=x2, coincide con hallar el área bajo la curva para ese par
de valores. La dificultad que se encuentra al resolver integrales de funcione de
densidad normales, requiere para una rápida obtención de la probabilidad deseada de
la tabulación de áreas bajo la curva normal. Sin embargo, es casi imposible contar con
tablas para todos los valores de μ y σ. Por fortuna, se pueden transformar todas las
observaciones de una variable aleatoria X en un nuevo conjunto de observaciones con
μ=0 y σ=1. La transformación es la siguiente:
x
Z

Si X cae entre x1 y x2 entonces Z estará entre
x1   x2  
z1  y z2 
 
1.5.2. Cálculo de probabilidades con la Normal Estándar
La distribución normal estándar es aquélla que tiene media cero (µ=0) y desviación
estándar uno (σ=1), por tanto:
1 x2
 ( 1 / 2 ) ( x   ) /  2
P ( x1  X  x 2 ) 
2 
 x1
e dx
Al transformarse queda:
1 z2

2
P ( z1  X  z 2 )  ez / 2)
dz
2 z1
Todo libro de estadística incluye la tabla de distribución de probabilidad normal para el

cálculo de probabilidades de valores de z entre -3.49 y 3.49
Ejemplos:
1. P (Z≤0.8) = 0.7881
0 0.8
2. P (-1≤Z≤0.8) = P (Z≤0.8) - P (Z≤-1)

= 0.7881 - 0.1587
= 0.6294
-1 0 0.8
3. P (Z≥0.8) =1-P (Z≤0.8)

=1-0.7881
=0.2119
0 0.8
1.5.2.1. Estandarización
Es el proceso mediante el cual una variable que se distribuye normal se transforma en

normal estándar.
x x 1 1
Z  E(Z )  E( ) E(x   )  E ( x)     1      0
    
x x 1 1 2
Z  V (Z )  V ( ) V (x  )  V x   1
   2
 2
2
1.5.2.2. Aplicaciones de la Normal
Si la vida media de cierta marca de baterías es de 30 meses con una desviación

estándar de seis meses. Hallar las siguientes probabilidades:
a) P(X≤20)
b) P(24≤X≤36)
c) P(X>38)
d) P(X≤20)
a) Z 
X   2030 10
   1. 67
σ 6 6
P(X  20)  P(Z  1.67)  0.0475
μ=30 σ=6
μ=1 =0
20 30 -1.67 0
b. P (24≤X≤36)
X1  
2  30 6
Z1     1
 6 6
X   36 30 6
Z2  2   1
 6 6
P2  X  3  P1  Z  1  PZ  1  PZ  1  0.840 0.158 0.682
El 68.26% de las baterías duran entre 24 y 36 meses.
24 30 36 -1 0 1
c. P (X≥38)
X  38  30 8
Z    1,33
 6 6

P  X  38  PZ  1,33  1  P Z  1,33  1  0,9082  0,0918



30 38 0 1.33
1.6. Aproximación Normal a las distribuciones Binomial y Poisson
Existen experimentos de ensayos repetidos, cada uno con sólo dos posibles
resultados, que se conocen como éxito y fracaso. Ejemplo la salida de productos de un
proceso, puede ser defectuoso o no defectuoso. Este tipo de experimentos se conoce
como binomial y tiene las siguientes propiedades:
El experimento consiste de n ensayos repetidos.

Cada ensayo proporciona un resultado que puede clasificarse como éxito o fracaso.
La probabilidad de éxito, designada por p, permanece constante de un experimento a
otro. Al igual que la probabilidad de fracaso que obviamente será q=1-p
Los ensayos son independientes.
La distribución de probabilidad de la variable aleatoria X, el número de ensayos

independientes es:
n
b( x; n, p )    p x q n  x , x  0,1,2,...., n
 x
la media y la var ianza de la distribución binomial son

  np   npq
Ejemplo:
Una encuesta a personas adultas realizada en Pereira, revela que casi el 70% rechazo
el hábito de fumar diariamente, según informe del periódico local, Si se seleccionan 12
personas al azar y se les pide su opinión, obtenga la probabilidad de que el número de
quienes rechazan fumar cotidianamente sea de
a) entre 7 y 9
9
12  12  12 
P(7  x  9)   b( x;12,0.7)   0.7 7 0.3127   0.7 8 0.3128   0.7 9 0.3129
x 7 7  8  9 
b) cuando más 5
5
12  12  12 
P(0  x  5)   b( x;12,0.7)   0.7 0 0.3120   0.710.3121   0.7 2 0.312 2
x 0 0  1  2 
12 
........   0.7 5 0.3125
5 
c) No menos de 8
12
12  12  12 
P(8  x  12)   b( x;12,0.7)   0.7 8 0.3128   0.7 9 0.3129   0.710 0.31210
x 8 8  9  10 
12 
........   0.712 0.31212
12 
1.6.1. Aproximación a la Distribución Binomial
Cuando el tamaño de muestra es grande calcular probabilidades con la distribución

binomial se torna un poco engorroso debido a ello se prefiere la distribución normal
para el calculo de dichas probabilidades. Ejemplo:
Como regla el 25% de ciertos productos manufacturados son defectuosos, cual es la

probabilidad de que a 20 de estos productos
a).Seis o menos productos salgan defectuosos

b).Por lo menos ocho salgan defectuosos
Al resolver este problema con la binomial sería
6
 20   20   20 
P( x  6)   b( x;20,0.25)   0.250 0.75 200   0.2510.75 201  ...   0.256 0.75 206
x 0 0  1  6 
7 7
 20 
P( x  8)  1   b( x;20,0.25)    0.25 x 0.75 20 x
x 0 x 0  x 
También puede aplicarse la distribución normal para resolver este problema donde
  nP  20 * 0.25  5
σ  nPq  20 * 0.25 * 0.75  1.93
X 65
a ) P(X  6)  Z1    0.52
σ 1.93
P(X  6)  P( Z  0.52)  0.6985
85 3 = 1.55
b) P(X  8)  1  P(X  8)  Z  
1.93 1.93
3 3
P(X  8)  P( Z  )  1  P( Z  )  1- P(Z
1.93 1.93
1.6.2. Aproximación de la Poisson
Ejemplo, supóngase que el número de partículas de asbesto en un centímetro

cuadrado de polvo tiene una distribución Poisson con media 1000.Si se analiza un
centímetro cuadrado de polvo cual es la probabilidad de encontrar menos de 950 o
menos partículas de asbesto.
e λ λ n
P (n, λ) 
n!
λ = µ = E(X)
Para nuestro problema debe hallarse la probabilidad de P (X≤950)

950
e 1000 1000 x
 X!
X 0
Al aplicar la distribución normal se tiene que P (X≤950) donde μ= λ y
V(X)=σ2 = λ
Al estandarizar se tiene
X  Xλ 950  1000

Z    1.58
 λ 1000
P ( X  950 )  P ( Z  1.58)  0.0571
CAPITULO II
TEORIA DE LA ESTIMACIÓN
2.1. Estimación Puntual
Es el proceso por el cual se hace inferencia a cerca del valor que puede tomar un
parámetro o la combinación de varios parámetros. Ejemplo:
1. Se desea estimar la media de una población μ
2. Se desea estimar la diferencia de medias o proporciones de las poblaciones
3. La varianza de una población etc. esta estimación se realizara a través de
estadísticas evaluadas en la muestra aleatoria.
A continuación presentamos las estadísticas para los tres Ejemplos anteriores:
1. Población Muestr
a X1
X2
µ
Xn
X =Σ(Xi)/n
Estimador
Población 1 Muestra Población 2 Muestra
X1 X1
µ1 µ2
X2 X2
Xn p2 Xn
p1
X1 =Σ(Xi)/n
 2 =∑(Xi)/n
1 -X2 es un estimador de µ1- µ2
p̂1 - p̂2 es un estimador de P1- P2
Población 3 Muestra
X1
σ2 X2 Estimador σ2= ∑(X1 – X )2/(n-1)
X3
2.1.1. Propiedad de los estimadores
En los capítulos anteriores se definió el concepto de estadístico y de este como

estimador de un parámetro, también se menciono las características de los momentos
muéstrales donde se determino que ˆ es un estimador insesgado de μ y su varianza
2
es:  2ˆ 
n
Pero el estadístico S² =Σ (Xi- ˆ ) ²/n es un estimador sesgado de σ² y en lugar de este

la varianza población se estima con la cuasivarianza muestral.
S² =Σ (Xi- ˆ ) ²/n-1.
En este momento definiremos formalmente algunas características que debe tener un

buen estimador.
2.1.1.1. Insesgado
Se dice que un estimador es insesgado si su valor esperado es igual al parámetro. E (

ˆ ) = ˆ
Ejemplo: Se toma una muestra aleatoria de tamaño X1, X2,..., Xn y se desea estimar la
media poblacional, esto la realizamos con dos estadísticas
a) X 
X i
E( X )  E(
X i
)   E(
Xi  n
)  
n n n n
b) Con Xi: la observación iésima
E( X i )   
 E ( X i )    0
2.1.1.2. Eficiente
Si se considera todos los posibles estimadores insesgados del parámetro θ, aquel que
tenga la varianza mas pequeña se le llamara estimador eficiente.
Para el ejemplo anterior se tiene:
X1 1 n 2  2
V (X )  V   2 V ( X i)  
n n n2 n
V ( X )  V ( X )   2
Estimadores:
1  X 
 X i
ˆ 2  X   X i
X max  X min
θ ˆ 3 
2
La grafica anterior ilustra como el estadístico ˆ1  x tiene una menor varianza que ˆ2 ,
por lo tanto en el proceso de estimación a través de una muestra puede dar resultados
del estadístico más cercano al parámetro θ con ˆ1
2.1.1.3. Error Cuadrático Medio (ECM)
En ocasiones es necesario utilizar estadísticas sesgadas, por lo tanto se hace

necesario tomar aquellos estimadores que minimicen la suma del sesgo y la eficiencia
del estimador y esto se logra mediante el error cuadrático medio (ECM) que es una
medida que relaciona el sesgo y la eficiencia de un estimador.
ECM (ˆ )  E (ˆ  ) 2   (ˆ  ) 2 P (ˆ )

Sumando y Restando E (ˆ ) se Tiene:
ECM (ˆ )  E ((ˆ  E (ˆ ))  ( E (ˆ )  )) 2
ECM (ˆ )  ((ˆ  E (ˆ )) 2  2( E (ˆ )  )(ˆ  E (ˆ ))  ( E (ˆ )  ) 2 )
ECM (ˆ )  ((ˆ  E (ˆ )) 2  ( E (ˆ )  ) 2 )
ECM (ˆ )  E (ˆ  E (ˆ )) 2  sesgo 2
ECM (ˆ )  V (ˆ )  sesgo 2
Es lógico pensar que debe tomarse aquellos estimadores que tengan el menor ECM. Si
el estimador  tiene menor ECM que cualquier otro estimador de  este estimador
recibe el nombre de estimador óptimo.
2.1.1.4. Eficiencia Relativa
Si 1 y 2 son estimadores de  se define la eficiencia relativa como el estimador de

menor ECM y se calcula de la siguiente forma:
ECM 1
ECM  2
Si la razón anterior es menor que 1 se dice que 1 es más eficiente de lo contrario es

más eficiente 2.
En nuestro ejemplo:
2 2
ECM (1 )  ECM ( X )  0 2
n n
ECM ( 2 )  ECM ( X )    0   2
2 2
2
ECM (1 ) 1
 n2   1
ECM ( 2 )  n
Por lo tanto el estimador  1  x es un estimador más eficiente que θ 2

2.1.2. Distribuciones en el muestreo para poblaciones normales
Si X1, X2,. . . Xn constituyen variables aleatorias con distribución normal para toda i= 1,
2,. . . n se tiene que:
X = ∑Xi/n V ( X ) = ∑V(X1)/n2 = nσ/n2 = σ2/n
E(X )=µ
Si se cumple la propiedad reproductiva de la normal (La suma de variables normales es

normal) entonces:
X ≈ N (µ,σ2/n)
Expresión que se debe leer de la siguiente manera X tiene una distribución normal con
media µ y varianza σ2/n.
2.1.3. Teorema Central del Límite
Si x1, x2,..., xn es una muestra aleatoria de tamaño n tomada de una población n>=30
(finita o infinita) con media  y varianza 2/n el estadístico X se distribuye normal con
media μ y varianza σ2 si el tamaño de la muestra es grande n→∞.
De la definición anterior se tiene que Z = ( X -μ)/ (σ / n ) tiene una distribución normal

estándar.
Analizando que tan grande debe ser n para tener una buena aproximación a la normal
de X se dará el siguiente ejemplo: en el lanzamiento de un dado su distribución es
discreta y uniforme. 1
PX1  
6
PARA UN DADO PARA DOS DADOS
TRES DADOS PARA CINCO DADOS

Para tamaños de muestras menores se logra una buena aproximación a la normal si la

distribución de la población es continua, unimodal y simétrica. Si la distribución de la
población no cumple estas condiciones bastará con muestras mayores a 30 para
obtener una buena aproximación a la normal por parte de X
Ejemplo 1: Una compañía electrónica fabrica resistores que tienen una resistencia
promedio de 100 y una desviación estándar de 10. La distribución de la resistencia
es normal. Encuentre la probabilidad de que al tomar una muestra n =25 resistores, la
resistencia promedio de ésta será menor que 95.
X 
σ = 10 Ω Z  σ   2 .5
n
P (X  95 )  P ( Z   2 .5 )  0 .0062
µ=100Ω 95  100
Z 
2
  2 .5
 10
X   2
n 25
 X =10
Ejemplo 2: En cierto municipio los salarios diarios por hora están distribuidos normal
con media =1650 y desviación estándar de 950. Si se toma una muestra de tamaño 30
hallar las siguientes probabilidades:
P ( X ≤2000)
P ( X ≥1800)
P (1500 ≤ X ≤1700)
NOTA: A la desviación estándar de un estimador se le llama error estándar.
Ejemplo 3: σ2 X = σ2/n; σx= σ/ n error estándar de estimador X .

Como puede notarse si se aumenta el tamaño de muestra, el error estándar disminuye.
2.1.4. Distribución muestral de diferencia de medias
Supongamos que se tienen dos poblaciones normales con medias de 1, 2, y
desviación estándar 1, 2, y que se sacan muestras de tamaño n1, n2. Utilizando el
hecho de que combinaciones lineales de variables aleatorias normales independientes
también es normal.
 X  X   X  X  1   2
1 2 1 2
 12  22
 2
X1  X 2
 2
X1
 2
X2
 
n1 n2
Combinaciones lineales de variables aleatorias normales independientes también son
normales.
Población 1 Muestra Población 2 Muestra
X 11 X 12
X 22
µ1 X 21 µ2
. .
σ1 σ2 .
.
X n2
X n1 n2
X N ,2
X N1n1, 1
El número de restas posibles es (N1n1 ). (N2n2 ) número bastante grande si N y ni son
grandes.
Si se tiene dos poblaciones independientes con medias 1, 2, y varianza σ12, σ 22, y si
X 1 y X 2 son las medias de dos muestras aleatorias independientes de tamaño n 1 y n2
de estas poblaciones, entonces la distribución de muestreo de:
X 1  X 2  ( 1   2 )
Z
 1 2 / n1  2 2 / n2
E ( X 1- X 2) = µ1-µ2
V ( X 1- X 2) =1  22
2

n n
1 2
X 1  X 2  (  1   2)
Z
 1 2 / n1  2 2 / n 2
Es aproximadamente normal estándar si los tamaños de muestras son mayores a 30. Si

las poblaciones son normales, el estadístico se distribuye normal aunque las muestras
sean pequeñas (<30).
Ejemplo: La vida eficaz de un componente de una turbina tiene una distribución normal
con media de 5000 horas y desviación estándar de 40 horas. El fabricante mejora en el
proceso de fabricación de este componente de tal manera que aumenta la vida eficaz
en 5050 y disminuye la desviación estándar a 30 horas. Supóngase que se toma del
proceso antiguo una muestra aleatoria de n1=16 componentes y para el nuevo proceso
se toma una muestra aleatoria de n2=15 componentes. ¿Cuál es la probabilidad que las
diferencias entre las dos medias muestrales X 1- X 2 sea al menos 25 horas?
X 1  N (5000, 40 )  N (5000,10)
16
X 2  N (5050, 30 )  N (5050,16)
25
 12  22
X 1 X 2  N ( 1   2 ,  )  N (50,12.649)
n1 n2
X 1  X 2  ( 1   2)
Z
 1 2 / n1   2 2 / n2
25  50
Z  1.976
160
P( X 2  X 1  25)  P( Z  1.976)  1  P( Z  1.976)  0.976
25 30 X1-X2
2.1.5 Distribución muestral de proporciones
Sea X una variable dicotómica (que toma solo uno de dos valores) definida sobre una
población de tamaño N. Sea A el número de elementos de X con la característica A y N-
A el número de elementos en X que no tienen A. La proporción de la población se
define como: P =A/N
Y el estimador de P es p̂ el cual se distribuye normal con media  p̂ =P y desviación

estándar  p̂ = ((pq)/n)1/2
Población Muestra
p̂ 1
P P =A/N
P p̂ 2
A p̂ 3
.
.
 pˆ i
  pˆ  P
n p̂n
Pq
pˆ  N ( pˆ , pˆ )  pPˆ  N ( P, )
n
Pq
pˆ  P  pˆ 
n
Estandarizando se tiene:
Pˆ  P
Z
Pq
n
Ejemplo: Se sabe que en cierta población de personas el 0.08 son daltónicos, si se

elige una muestra al azar de 150 individuos, hallar las siguientes probabilidades:
a ). P ( pˆ  0 .11)
b ). P (0 .05  pˆ  0 .12 )
c ). P ( pˆ  0 .10 )
Pq 0 .08 * 0 .92
a ) pˆ  P  0 .08; pˆ    0 .022
n 150
P ( pˆ  0 .11)
pˆ  P 0 .11  0 .08
Z    1 .36
 pq  0 .022
 
 n 
P ( pˆ  0 .11)  P ( Z  1 .36 )  0 .9131
b) P (0.05≤ p̂ ≤0.12)
Pˆ1  P 0.05  0.01

Z1    1.36
pq 0.022
n
Pˆ  P 0.12  0.08
Z2  2   1.81
pq 0.012
n
c) P (0.05≤ p̂ ≤0.12) = P (-1.36≤ z ≤1.81)

= P (z ≤1.81) – P (z ≤ -1.36)
= 0.9648-0.0819
= 0.878
2.1.6. Distribución Chi Cuadrado 2
La distribución chi cuadrado es una de las más importantes en la distribución muestral y

es utilizada para hacer inferencia sobre la varianza poblacional.
Sea Z1, Z2,..., Zk variables aleatorias distribuidas normal estándar. Entonces la variable
aleatoria X= (Z1)2+ (Z2)2+...+ (Zk)2 tiene una distribución de probabilidad:
1
f ( x)  X k / 2 1 e  x / 2 x>0
2  ( k / 2)
k /2
La distribución chi cuadrado con k grados de libertad X2 La media y la varianza de

dicha distribución de probabilidad están dadas en función de los grados de libertad.
=k
2=2k
Para el cálculo de probabilidades con la chi cuadrado, debe resolverse la siguiente

integral:
P(x > 2k )   f ( u)du  

2
k
Estas probabilidades dan el porcentaje de la cola superior y aparecen en la tabla de la
2, así:
P(x>=20.05,10)=P(x>18.31)=0.05
18.31 X210
P(x>=20.1,20)=P(x>28.41)=0.1
28.41 X220
2.1.6.1. Función de densidad de probabilidad para varios grados de libertad
Teorema: Sea y1, y2,..., yp variables aleatorias chi cuadrado independientes con k 1,
k2,..., kp grados de libertad respectivamente. Entonces la cantidad y= y 1+y2+...+yp sigue
una distribución chi cuadrado con k grados de libertad donde:
p
k   ki
i 1
Sea x1, x2,..., xn una muestra aleatoria tomada de una población normal, con media  y
( n 1) s 2
varianza 2. La función de la varianza muestral esta distribuido como 2n-1.
2
Demostración:
(n - 1) s 2

 (x1  x )2
2 2
Si reemplazamos por  en la ecuación anterior:

(x i  )2
, la distribución de esta
2
( xi   )2
función es 2n debido a que es normal estándar e independiente.
2
n n
(x  )  [(x  x)  (x  )]

i1
i
2
i1
i
2
0
n n n n
(x ) (x x) (x) 2(x x)(x )

i1
i
2
i1
i
2
i1
2
i1
i i
n n
 (x
i 1
i   ) 2   (x i  x ) 2  n ( x   ) 2
i 1
n n
(x i   )2  ( xi - x ) 2
n( x -  ) 2
i 1
 i n

2 2 2
n n
(x i  ) 2
 ( xi  x ) 2
( x  )2
i 1
 i 1

2 2 2 n
 (x i   )2
 x   )2
i 1
 x ;2
 x12
Como  2 n
 2
(x - x) 2
 x n21
Por ser la Chi cuadrado aditiva entonces:
2
Es una Chi cuadrado con n-1 grados de libertad

2.1.6.2. Aplicaciones de la Chi Cuadrado
Ejemplo1: En la producción de cierto material para soldar se ha establecido que la

desviación estándar de la tensión a la ruptura de este material es 1=24.8 libras. Una
muestra aleatoria de tamaño 30 dio una desviación estándar de 26.7. Hallar la
probabilidad de encontrar un valor mayor o igual al observado.
( n - 1) S 2
Como la función  x 2n -1
 2
(30  1)26.7 2
Tenemos:  33.61
24.8 2
Al consultar la tabla 2,29 se tiene:
20.5, 29=28.34 , y, 20.1, 19=39.09
Por lo tanto el alfa que estamos buscando se encuentra entre 0.10<<0.50

La probabilidad de que la desviación estándar de la tensión a la ruptura sea mayor a
26.7 se encuentra entre 0.10 y 0.50:
0.10<=P (229>33.61) <=0.50
Ejemplo 2: Una enlatadora que produce latas de 8 onzas en promedio, con una
varianza de 0.001. Los ingenieros de control de calidad han determinado que el proceso
esta funcionando correctamente cuando la variación verdadera 2 de la cantidad de
llenado por lata es menos de 0.0025. Se selecciona una muestra aleatoria de tamaño
10 latas de la producción de un día y se registra la cantidad de llenado en onzas.
Calcule la probabilidad de que S2 sea mayor que 0.0025. Suponga que las cantidades
de llenado tienen una distribución normal.
(n - 1) S 2 9 * (0.0025)
2 =  2n-1   22.5
 2
0.001
P (29>22.5)=, 20.010,9=21.67 , y, 20.005,9=23.59
0.005<=<=0.010 0.005<= P (29>22.5) <=0.010

Ejemplo 3: Un fabricante de acumuladores para automóviles garantiza que sus

productos duran, en promedio 3 años, con una desviación estándar de 1 año. Si cinco
de estos acumuladores tienen duraciones de 1.9, 2.4, 3.0, 3.5, y 4.2 años estará aun
convencido el fabricante que su producto tiene una desviación de 1 año.
2
 (X  X)
S2  1  0.815
n -1
X2= 4*0.815/1=3.26
X24, 0.50=3.26 0.50≤≤0.90
2
X 4, 0.90=1.06
P (0.90 P(X24) <=3.26)=0.50
0.90
0.50
1.06 3.26
1.06X2113.36
2.1.7. Distribución T Student
Sea z una variable aleatoria con distribución normal estándar y v una variable aleatoria
Chi cuadrado con k grados de libertad. Si z y v son independientes, entonces la variable
aleatoria:
z
t Distribución t con k grados de libertad.
v k
Tiene función de densidad de probabilidad
[( k  1) / 2 ]
F ( x) 
 k [  ( k / 2 )][( x 2 / k )  1]( k 1) / 2

t=0, donde
( r )   x r 1e  x ( r  1)( r  1)
0
Si r es entero ( r ) =( r -1)! , 2t=k/ (k-2) para k>0
K=30
K=10
K=5
Las probabilidades para la distribución t y normal son casi iguales para k>30. Para el
cálculo de probabilidades debe calcularse la siguiente integral:

P (t  t ,k )  t f (t ) dt  
 ,k
Ejemplo:
P (t10>t0.05, 10) =P (t10>1.812)=0.05

P (t15>t0.10, 15) =P (t15>1.341)=0.10
Propiedades:
 Simétrica
 Asintótica
 Tiene su máxima altura en la media, mediana y la moda.
Por ser simétrica se tiene que: t1-/2, k=- t/2, k
/2 /2
t1-/2,k 0 t/2,k
Ejemplo: t0.95, 10 = -t0.05, 10= -1.812

t0.99, 20 = -t0.01, 10= -2.764
Consideremos la distribución de la siguiente función:
x
T 
S/ n
Si reemplazamos S por 2
se tiene la distribución de N (0,1) normal estándar.
Debido a que no conocemos 2 y debe estimarse con una muestra, cual es la
distribución de la expresión anterior:
x
T 
S / n
Dividiendo numerador y denominador por 2, se tiene:
x -  x- x -  x - 
T =   / n  / n   / n
S = =
S S 2
(n - 1) S 2
 n   2
( n - 1 ) 2
Z
T 
v
( n  1)
2.1.7.1. Aplicaciones de la T
1. Un fabricante de bombillos afirma que su producción tiene una tasa promedio de vida
de 500 horas. Para investigar esta afirmación, el fabricante prueba 25 bombillos, dicha
muestra arrojó los siguientes resultados: =518 horas y S=40 horas.
El fabricante queda satisfecho si el resultado es una t entre -t 0.05, 24 y t0.05, 24.
x 518  500

T    2.25
S / n 40
25
t0.05, 24 = 1.711
t0.95, 24= -1.7
Por tanto el fabricante debe estar satisfecho y lo más probable es que la tasa promedio
de vida de los bombillos es un poco mayor a 500 horas, es decir mejor de lo que el
pensaba.
1. Hallar el valor de k que hace verdadera la siguiente expresión.
P(k≤t≤-1.325)=0.075 para n=20
P(t≤1.325)-P(t≤k)=0.075
P(t≤k)= P(t≤-1.325)-0.07
P(t≤k)=0.10-0.075=0.025 P(t≤k)= 0.025 k=-2.086
K -1.325 2.
Hallar el valor de k para la siguiente ecuación.
P (k≤t≤-1.7613)= 0.045 para n=14 y -P (t≤k) + P (t≤-1.7613)=0.045
P (t≤k)= P (t≤1.7613)-0.045
P (t≤k)=0.05-0.045
P (t≤k)=0.005 k=2.977
2.1.8. Distribución de probabilidad F
Fue dado a conocer por R.A Fisher, es utilizado en la comparación de dos varianzas
poblaciones y en la comparación de varias medias poblacionales. El estadístico F se
define como la razón de dos variables aleatorias independientes con distribución Chi
cuadrados dividida cada una entre sus grados de libertad:
Función de probabilidad F
w/u
F
y/v
Gráfico de F para varios grados de libertad
Si w, y y son variables aleatorias Chi cuadrado con u y v grados de libertad

respectivamente, entonces la razón F= (w/u)/ (y/v) se distribuye F con u grados de
libertad en el númerador y v grados de libertad en el denominador; y su función de
densidad de probabilidad es la siguiente:
(u / 2)1
(u  v / 2)(u / v ) u / 2 x
f ( x) 
(u v ) / 2 0<x<
(u / 2)(v / 2)[(u / v ) x  1]
La media y varianza de F son =v/ (u-2), u>2
2v 2 (u  v  2) v>4
 2
u (v  2) 2 (v  4)
f1-,u,v f ,u,v

P ( F  f  , u , v )  1  P ( F  f  ,u , v )  1   F ( f )df
fu ,v
P(F  f005 , )  P( f510

. ,510 ,  333
. )  005
.
La tabla de la distribución de probabilidad F contiene los valores de f , u, v para <=0.25
P(F  f0.05,10,6 )  P( f10,6  4.06)  0.05

para hallar la probabilidad de los valores de >0.90 se debe realizar la siguiente
transformación:
1
f 1 ,u,v 
f 1 ,v,u
Por ejemplo:
1 1
f 0 . 9 5 , 5 ,10    0 .2 11
f 0 .0 5 1 0 , 5 4 .74
1 1
f 0.95 ,6 ,10 = = =0.24
f 0.0510 ,6 4.06
1 1
f 0.99 ,15, 20    0.296
f 0.0120 ,15 3.37
Supóngase que muestras aleatorias de tamaño n1 y n2 se seleccionan a partir de dos

2 2
poblaciones normales con varianza 1 y 2 respectivamente. De la definición de Chi
cuadrado se tiene que:
( n 1 - 1) s 12 (n2 -1)s22
 12   
2
2
 2
1
2 2
Tiene distribución Chi cuadrado con n1-1 y n2-1 respectivamente y la razón de las
variables:
( n1  1) s12 s12
 12 /( n1  1) ( n1  1) 12  2  22 s12
1
   2 2 f n1 -1, n2 -1
 22 /( n 2  1) ( n 2  1) s 22 2
s2  s2
1
( n 2  1) 22  22
.
Tiene distribución F con n1-1 grados de libertad en el numerador y n2-1 grados de

libertad en el denominador
2.1.8.1. Aplicaciones de la F
2 2
Si S1 y S2 representan las varianzas de muestras aleatorias independientes de tamaño
n1=8 y n2=12, tomadas de poblaciones normales con varianzas iguales calcule P
2 2
(S1 /S2 <=4.89).
2 2 2 2
P (S1 /S2 <=4.89) = 1-P(S1 /S2 >4.89)= 1-0.01=0.99
F0.01, 7.11=4.89
2.2. Estimación por intervalos
En la estimación puntual detallada anteriormente lo más probable es que el valor del

estadístico no corresponda con el parámetro al seleccionar una muestra aleatoria. Para
solucionar en parte este problema la estadística proporciona una herramienta llamada
estimación por intervalos, la cual tiene por objetivo cuantificar la probabilidad de que un
parámetro se halle entre dos límites:
P (L<=θ<=U)=1-α
Donde L y U corresponden a los limites inferior y superior respectivamente y se pueden

expresar en función del estadístico que es utilizado para estimar θ.
El valor de α se encuentra en el intervalo 0<=α<=1 y el termino 1-α se llama nivel de

confianza.
Un intervalo de confianza unilateral inferior esta dado por la siguiente expresión:

P (θ>=L)=1-α
Un intervalo de confianza unilateral superior esta dado por la siguiente expresión:

P (θ<=U)=1-α
1-
P( ˆ >L)=1- Límite inferior
L θ ˆ
P( ˆ <U)=1- Límite superior

1-
 U ̂
2.2.1. Interpretación de los intervalos de confianza
Donde ˆ es una expresión que depende de θ.
P (L  ˆ  U)=1-α
La probabilidad de que ̂ se halle entre los limites L y U es de 1-. El objetivo a lograr
consiste en despejar θ de expresión ̂ y observar los valores de los limites inferior y
superior L y U.
2.2.2. Intervalos de confianza para µ, varianza conocida
Supóngase que se extrae una muestra aleatoria de tamaño n, la media muestral  es

un estimador puntual de la media poblacional μ. En temas anteriores se demostró que
la expresión:
X 
ˆ  Z  Tiene una distribución normal estándar.

n
Luego,
X -
P(-Z / 2   Z / 2 )  1- 
/ n

P (- Z  / 2  / 
n  X -   Z /2  /  
n )  1-
   
P (- Z  / 2  / n - X  -   Z  / 2  / n - X )  1 - 
  
P(  - Z  / 2  / n      Z  / 2  / n )  1 -  
Error= E= Zα/2 (/√n)
2.2.2.1. Tamaño de muestra
Z 2 / 2 2
n
E2
Los intervalos bilaterales se calculan de la siguiente manera: P (L<=μ<=U) dado que:
 
U = X +Z  / 2 L  X  Z / 2
n n
El intervalo unilateral inferior se calcula de la siguiente manera:
  
P   L  X - Z 1
  n 
El intervalo unilateral superior se calcula de la siguiente manera:
  
P   U  X  Z    1
 n 
Ejemplo 1: Un método para medir la conductividad térmica del hierro armco. Al utilizar
una temperatura de 100 ° F y una potencia de 550w, se obtiene de una muestra de
tamaño 10 los siguientes resultados:  =41.924 y S=0.284, se sabe que la desviación
estándar de estimación es de =0.30, construir un intervalo de confianza del:
a. 95%
b. 99%
a.  
L = X - Z / 2 U  X  Z / 2
n n
L= 41.924-1.96(0.30)/√10 U= 41.924+1.96(0.30)/√10
L= 41.924-0.186 U= 414.924+0.186
L= 41.738 U= 42.110
Por lo tanto un intervalo de confianza del 95% para la conductividad promedio es de

(41.738<=μ<=42.110)
b.
 
L = X - Z / 2 U = X +Z  / 2
n n
L= 41.924-2.58(0.30)/√10 U= 41.924+2.58(0.30)/√10
L= 41.68 U= 42.17
Un intervalo de confianza del 99% para la conductividad promedio es de

(41.68<=μ<=42.17)
Al comparar los resultados de a y b puede observarse como la longitud del intervalo a

es de 2(1.96/√n)=3.926/√n, esto es para una confianza del 95%, mientras que la
longitud del intervalo para b es de 2(2.58/√n)=5.16/√n. El intervalo de confianza del
99% es mayor que el del 95%, esto quiere decir que a menor confianza más precisión.
Ejemplo 2: Supóngase que el error en la estimación de la conductividad térmica

promedio del hierro Armco del ejemplo anterior sea menor que 0.05, hallar el tamaño
de muestra para una confianza del 95% y una desviación estándar del =0.10:
2 2
 Z   1.96*0.10
n  /2    15.37  16
 E   0.05 
Ejemplo 3: Hallar un intervalo de confianza unilateral inferior y superior de α=0.05:
Inferior

  L  X - Z = 41.924 –1.645(0.30)/√10
n
μ≥L=41.7679
Superior

  U  X  Z = 41.924+1.645(0.30)/√10
n
μ≤ U= 42.08
Ejemplo 4: Hallar el error estándar de estimación.
 
 X  EE X   / n  0 . 30 / 10  0 . 0949
2.2.3. Intervalo de confianza para µ varianza desconocida
Si X y S son la media y desviación estándar de una muestra aleatoria tomada de una

distribución normal con varianza desconocida, entonces un intervalo de confianza del
100(1-α) por ciento para μ esta dado por:
X  t / 2 ,n 1 S / n    X  t / 2 ,n 1 S / n
Donde tα/2, n-1 es el punto crítico superior que corresponde al porcentaje de α/2 de la
distribución t con n-1 grados de libertad.
Demostración:
-tα/2 tα/2 t
x
T
S
n
P ( t / 2, n 1  T  t / 2., n 1  1  
x
P ( t / 2 , n 1   t / 2., n 1  1  
S
n
Despejando µ se tiene:
 
P X  t / 2 ,n 1 S / n    X  t / 2 ,n 1 S / n  1  
Los intervalos unilaterales están dados por la siguiente expresión:
S
Inferior P (   L  X  t ,n1 ) 1
n
S
Superior P (   U  X  t ,n1 ) 1
n
Ejemplo: Se desea estimar la concentración media de amilasa en suero de una

población sana. Las mediciones se efectuaron en una muestra de 15 individuos. La
muestra proporcionó una media de 96 unidades en 100/ml. Y una desviación estándar
de 35 unidades.
Construir un intervalo de confianza bilateral, unilateral inferior y superior del 95% de
confianza.
L  X  t 0 . 025 ,14 S / n  96  2 . 145 ( 9 . 04 )  76 . 61

Bilateral
U  X  t 0 .025 ,14 S / n  96  2 . 145 ( 9 . 04 )  115 . 39
P (76.61≤μ≤115.39)=0.95
Inferior
  L  X  t0.95,14 S / n  96  1.761(9.04)  80.08
P (μ>=80.08)=0.95
Unilateral
Superior
  U  X  t 0.05,14 S / n  96  1.761(9.04)  111 .92
P (μ<=111.92)=0.95
2.2.4. Intervalos de confianza para la diferencia de dos medias, varianzas

conocidas
Sean X11, X12, X13,… X1n una muestra aleatoria de tamaño n1 de la población con media
2
μ1 desconocida y varianza  1 conocida, y X21, X22, X23,… X2n otra muestra aleatoria de
2
tamaño n2, de una población con media μ2 desconocida y varianza  2 conocida. Sí
1 y  2 son las medias muéstrales, se desea encontrar un intervalo de confianza
para la diferencia de medias μ1-μ2.
El estadístico
Z
X 1 
- X 2 - 1   2 
 12  22

n1 n2
Tiene una distribución normal estándar, si las dos poblaciones son normales o se
cumple las condiciones del teorema central de límite:
-Z/2 -Z/2
P (- Z  / 2  Z  Z  / 2 )  1 - 
P (- Z  / 2 
X 1 
- X 2 - 1 -  2 
 Z / 2 )  1  
 2
 2
1
 2
n1 n2
Al despejar μ1-μ2 se tiene:
  2 2   2 2 
   n1 n2 
 n1 n2 

P X1 - X2 - Z/ 2 1  2  1 - 2  X1 - X2 Z/ 2 1  2  1-
    
La expresión anterior es un intervalo de confianza bilateral para μ 1-μ2
E=Z / 2X1 X2
 12  22
E = Z / 2 +
n1 n2
2.2.4.1. Cálculo del tamaño de la muestra
Si supone que n1=n2, se tiene que:
12  22 12   22
E  Z / 2 X1 X2
 Z / 2   Z / 2
n1 n2 n
  12   22 
E  Z  / 2 
2 2
  n 
Z 2 / 2  12   22 
 n  E2
2.2.4.2. Intervalos de confianza unilaterales
1 -  2  L  X 1 - X 2  - Z
 12  22
Inferior: 
n1 n2
Superior: 
1 - 2  U  X 1 - X 2  Z    12
n1

 22
n2
Ejemplo: Se llevan acabo pruebas para medir la resistencia a la tensión de dos clases
de largueros de aluminio. Los datos obtenidos en dichas pruebas aparecen a
continuación:
n1=10 1 =87.6 1=1.0
n2=12  2 =74.5 2=1.5
Construir un intervalo de confianza bilateral, unilateral superior e inferior con un 90% de

confianza para la diferencia de medias 1-2
Solución intervalo bilateral:
P(L  1 - 2  U)  1 -   P(L  1 - 2  U)  0.90
 12  22 1.0 2 1.52
L =( X 1 -X2 ) - Z / 2 + =( 87.6 - 74.5 ) -1.645 +
n1 n2 10 12
L= 12.22
 12  22 1.0 2 1.5 2
U =( X 1 - X 2 ) + Z / 2 + =( 87.6 - 74.5 ) +1.645 +
n1 n2 10 12
U= 13.98
2.2.5. Intervalos de confianza para µ1 - µ2 en poblaciones normales, varianzas

desconocidas
En la construcción de intervalos de confianza para la diferencia de medias con

varianzas desconocidas se presentan dos situaciones a saber. La primera supone que
las varianzas son iguales y en la segunda se supone que las varianzas son diferentes.
a. σ1=σ2
Si X 1 , S21 X 2 , S22 son las medias y las varianzas de dos muestras aleatorias de
tamaño n1 y n2 respectivamente, tomadas de dos poblaciones normales independientes
con varianzas desconocidas pero iguales, entonces un intervalo de confianza del 100(1-
α) por ciento para la diferencia de medias μ 1-μ2 es:
P(L  1  2  U)  1
 1 1 
U   X 1  X 2   t / 2,n1  n2  2 S p   
 n1 n 2 
 1 1 
L   X 1  X 2   t / 2 ,n1  n2  2 S p   
 n1 n 2 
n1  1S12  n 2  1S 22

Donde: S p 
n1  n 2  2
Esto debido a que si las varianzas son iguales Sp es un estimador ponderado de la

desviación estándar poblacional.
Demostración:
( X 1  X 2 )   1   2  ( X 1  X 2 )  1   2 
t 
S p2 S p2 1 1
 Sp 
n1 n2 n1 n 2
b. σ1≠σ2
Si X 1 , X 2 y S21, S22 son las medias y las varianzas de dos muestras aleatorias de
tamaño n1 y n2 respectivamente, tomadas de dos poblaciones normales independientes
con varianzas desconocidas y diferentes, entonces un intervalo de confianza del 100(1-
α) por ciento para la diferencia de medias μ 1-μ2 es:
P(L  1  2  U)  1
 2 2 
 S1 S 2 
 
L  X 1  X 2  t / 2,v   
 n1 n 2 
 
 2 2 
 S1 S 2 
 
U  X 1  X 2  t / 2,v 
n

n

 1 2 
 
V 
S12 / n1  S 22 / n2 
2
2
Donde:
S12 / n1   S 22 / n2 
2 2
n1  1 n2  1
Es importante anotar, que otros autores como William Mendenhall en su libro

“Probabilidad y Estadística para ingeniería y ciencias” plantean una formula análoga
para hallar los grados de libertad de t, la cual es:
V 
2  2
S1 / n1  S 2 / n2
2


S12 / n1
2

 
S 22 / n2
2

n1  1 n2  1
2.2.5.1. Intervalos unilaterales para µ1 - µ2
a) σ1 = σ2
 1 1 
 
1   2  L  X 1  X 2  t ,n  n 2 S p    (Inferior)
 1 n2 
n
1 2
 1 1 
1   2  U   X 1  X 2   t ,n  n 2 S p    (Superior)
 1 n2 
n
1 2
b. σ1≠σ2
 S 21 S 2 2 

1   2  L  X 1  X 2   t ,v 
 n1
 
n2  (Inferior)

 S 21 S 2 2 

1   2  U  X 1  X 2   t ,v 
 n1
 
n2  (Superior)

Ejemplo: Los niveles bajos de calcio indican que el mecanismo de hidratación del
cemento queda bloqueado y esto permite que el agua ataque varias partes de una
estructura de cemento. Al tomar diez muestras de cemento estándar se encontró que el
peso promedio de calcio es X 1 =90 con una desviación estándar de S1=5.0; los
resultados obtenidos con 15 muestras de cemento contaminado con plomo fueron de
X 2 =87 y S2=4.0.
Supóngase que el porcentaje de peso de calcio esta distribuido de manera normal.

Encuentre un intervalo de confianza del 95% para la diferencia de medias 1-2 de dos
tipos de cemento.
a. Suponga que las desviaciones poblacionales son iguales

b. Suponga que las dos desviaciones estándar poblacionales son diferentes.
Respuestas
a. σ1=σ2
S 2

n1  1S12  n 2  1S 22

9(5.0) 2  14( 4.0) 2
 19.52
p
n1  n 2  2 23
S p  19.52  4.4
 1 1 1 1
P(X1  X2) T0.025,23Sp   1  2  (X1  X2) T0.025,23Sp    0.95
 n n
1 2 n1 n2 
 1 1 1 1
P(9087)  2.069(4.4)   1  2  (9087)  2.069(4.4)    0.95
 10 15 10 15

P  0.72  1   2  6.72  0.95 
b. σ1σ2
2 2
 S2 2   52 42 
 1  S2   
 n1 n2   10 15 
12.7211
V   2    2   2  17.9  18
2 2 2 2 0.639
S2   S2   52   42 
 1   2     
 n1   n2   10   15 
       
n1  1 n2  1 11 16
 S 12 S22 S 12 S22 
P( X 1  X 2 )  T0.025,18   1  2  ( X 1  X 2 )  T0.025,18    0.95
 n1 n2 n1 n2 

 25 16 25 16 
P(90  87)  2.101   1  2  (90  87)  2.101    0.95
 10 15 10 15 

P  0.968  1  2  6.968  0.95 
2.2.6. Intervalos de confianza para 1-2 observaciones pareadas
En las secciones anteriores se obtuvieron intervalos de confianza para la diferencia

entre dos medias tomadas de dos poblaciones independientes. Se tomó n 1 elementos
de la primera población y n2 de la segunda. En muchas situaciones experimentales,
existen solo n unidades experimentales diferentes y los datos están recopilados por
pares, cada unidad experimental esta formada por dos observaciones.
XiJ donde i=1,2 variables de comparación

J=1, 2,3…n individuos en la muestra
Se define una variable DJ J=1,2,…n

D1=X11-X21 ; D2=X12-X22 ; …Dn=X1n-X2n
D=E(D)=E(X1-X2)=1-2
 D2 D2=V(X1-X2)=σ12+ σ 22-2cov(X1, X2)
Por lo tanto D se estima con D , el promedio muestral de las DJ J=1,2,…n muestras

que  D2 se estimación S D2 la varianza muestral de las diferencias DJ.
Puede observarse que  D2 es más pequeño que  12   22 dado que la unidad
experimental esta relacionado el término de covarianza es positivo.
2.2.6.1. Definición de intervalo de confianza para 1-2, observaciones pareadas
Si d y Sd son la media y desviación estándar muestral de la diferencia de n pares

aleatorios de mediciones normalmente distribuidas, entonces un intervalo de confianza
del 100(1-) por ciento para la diferencia entre medias  d̂ =1-2 es:
Sd Sd
d - t /2,n -1   d  d  t /2,n -1
n n
Donde t/2, n-1 es el punto critico superior que corresponde a /2 y n-1 grados de libertad.
Sigue una distribución t, n-1.
Como:
d 
t d
Sd
n
P(t / 2,n 1  T  t / 2,n 1 )  1  
d  D
P ( t / 2,n1   t / 2,n1 )  1  
SD
n
Despejando D se tiene:
S S
P ( d  t / 2,n1 d   d  d  t / 2,n1 d )  1
n n
Ejemplo: Doce individuos participaron en un experimento para estudiar la

efectividad de cierta dieta, combinada con un programa de ejercicios, para la reducción
de los niveles de colesterol en suero. La tabla muestra los niveles de colesterol en
suero para los doce individuos antes y después del programa.
INDIVIDUO COLESTEROL EN SUERO DIFERENCIA X 2-

X1
ANTES X1 DESPUES X2
1 201 200 -1
2 231 236 5
3 221 216 -5
4 260 233 -27
5 228 224 -4
6 237 216 -21
7 326 296 -30
8 235 195 -40
9 240 207 -33
10 267 247 -20
11 284 210 -74
12 201 209 8
d
d i

 242
 20.17
12 12
S d2 
 d i d 
2

5885.67
 Sd 
5885.67
 23.13
n 1 11 11
Sd 23.13
  6.68
n 12
Construir un intervalo de confianza del 95% para d=1-2:
S S
P(d  t / 2,n1 d  d  d  t / 2,n1 d )  1
n n
t/2,n-1=t0.025,11=2.201
P (  20 .17  2 .201 * 6 .68   d   20 .17  2 .201  6 .68 )  0 .95
P (  34 . 87   d   5 . 47 )  0 .95
2.2.7. Intervalos de confianza para la varianza de una distribución normal
Si S2 es la varianza muestral de una muestra aleatoria de n observaciones tomadas de

una distribución normal con varianzas desconocidas 2 entonces un intervalo de
confianza del 100(1-) por ciento para  2
es:
 
 n  1S 2 2 n  1S 2 
P     1
2
  / 2,n1 2
1 / 2,n1 
 
Donde  2 / 2 , n 1 ,  12 / 2 , n 1 son los puntos críticos superiores e inferiores de una Chi
cuadrado con n-1 grados de libertad.
Los intervalos de confianza unilaterales son los siguientes:
 2

n  1S 2
(Inferior)
 2 ,,n1
 2

n  1S 2
(Superior)
12 ,n1
Demostración:
( n  1) S 2
El estadístico  X n21
 2
P ( x12 / 2,n1  xn21  x2 / 2,n1 )  1  

2
2 ( n  1) S 2
P ( x1 / 2,n1   x / 2,n1 )  1  
2

2 2
x1 / 2,n1 1 x / 2,n1
P(   )  1
2 2 2
( n  1) S  ( n  1) S
2 2
( n  1) S 2 ( n  1) S
P(   )  1
2 2
x / 2,n1 x1 / 2,n1
Ejemplo 1: Un fabricante de baterías para automóviles aseguró que las baterías que
produce duran en promedio 2 años con una desviación estándar de 0.5 años, si cinco
de estas baterías tienen una duración de 1.5, 2.5, 2.9, 3.2 y 4.6 años, determine un
intervalo de confianza del 95% para σ 2. Indique si es válida la afirmación del fabricante.
 n  1S 2 n  1S 2 
P    2
2
 0.95
 2   (n-1)=5-1=4
  / 2,n 1 1 / 2, n 1 
 X 
2
1 X
S 2
  1.273
n 1
12 / 2,n1   02.975, 4  0.484

2 / 2,n1   02.025, 4  11.143
 4 * 1.273 2 4 * 1.273 
P     0.95
 11 .143 0.484 

P 0.457  
2

 10.52  0.95
Como el fabricante afirma que su producción tiene una varianza de 0.25= (0.5) 2 y dicha
varianza no se encuentra en el interior del intervalo, decimos que la afirmación del
fabricante no es valida, y por lo tanto los datos muestran evidencia que su producción
tiene una varianza mayor.
Ejemplo 2: Un fabricante de detergentes liquido esta interesado en la uniformidad de la

maquina utilizada para llenar las botellas. De manera especifica, es deseable que la
desviación estándar σ del proceso de llenado sea menor que 0.15 onzas del liquido;
suponga que la desviación del liquido del llenado es normal. Al tomar una muestra
aleatoria de 20 botellas, se obtiene una varianza muestral S 2=0.0153 (onzas de fluido)2.
Hallar un intervalo de confianza superior al 95% y concluya a cerca de la verdadera

varianza del llenado.

2

n  1S
2

n  1S
2

19 * 0.0153
 0.0287  P (
2
 0.0287)  0.95
2 2
 1 ,n 1  0.95,19 10.117
 P (  0.17 )  0.95
σ2≤0.0287 (onzas liquido)2, es decir, σ ≤ 0.17, sería el intervalo de confianza superior.

Por tanto no es verdad que la desviación estándar del llenado está por debajo de 0.15.
2.2.8. Intervalos de confianza para la razón de dos varianzas en distribuciones

normales
Con frecuencia se quiere comparar dos varianzas poblacionales, para lograrlo se forma
la razón:
 12
Si las varianzas son iguales la razón es igual a 1.
 22
Debido a que las varianzas poblacionales se desconocen debe utilizarse una
estimación a dicha varianzas.
Anteriormente se planteo que el estadístico de prueba:

s12
 12
 f ,n1 1,n2 1
s22
 22
Tiene una distribución F con n1-1 grados de libertad en el numerador y n2-1 grados de
libertad en el denominador.
P( f1 / 2,n1 1,n2 1  fn1 1,n2 1  f / 2,n1 1,n2 1)  1

s 12
 2
P ( f1 / 2 ,n1  1 ,n 1  2
1
 f / 2 ,n1  1 ,n 1 )  1  
2
s 2
2
 2
2 º
s 12  2
P ( f 1 / 2 , n1  1 ,n 2  1  2
 f / 2 ,n1  1 ,n 2  1 )  1  
s 22  1
2
f (1 2,n1 1,n2 1)  22 f 2,n 1,n 1

P(  2 )  1
1 2
2
s s
1
2
2 1 s12 s22
s12 s22  12 s12 s22
P(  2  )  1
f ( 2,n1 1,n2 1)  2 f (1 2,n 1,n 1) 1 2
Los límites unilaterales se expresan de la siguiente manera:
 12 s12 s 22

 22 f ( 1   , n 1 , n
1 2 1 )
Superior
 12 s12 s 22

2 2
f (  , n  1, n  1 )
1 2
Inferior
Ejemplo 1: Se registraron los siguientes datos, en minutos, que tardan algunos

hombres y mujeres en realizar una actividad en una empresa, los cuales fueron
seleccionados aleatoriamente. Construir un intervalo de confianza del 90% para la
razón de las varianzas.
n1=25 n2=14
X 1  19 X 2  17
S12=1.8 S22=1.5
0.90
0.05 0.05
F (0.95,24,13) F(0.05,24,13)
El intervalo del 90% está dado por la siguiente expresión:
s12 s22  12 s12 s22 s12 1.8

P(  2 )  1   1.2
f ( 2,n1 1,n2 1)  2 f (1 2,n 1,n 1) 1 2
s22 1.5
F (0.05, 24,13)=2.41
1 1
  0.4587
f (0.05,13,24) 2.18
1.2 12 1 .2
P(   )  0.90
2.41  22 0.4587
 12
P(0.498  2  2.616)  0.90
2
El 90% de las muestras seleccionadas contendrán una razón de varianzas entre 0.498
y 2.616.
Ejemplo: Durante un periodo de 15 días se tomaron los tiempos gastados por dos
estudiantes para transportarse de sus casas a la universidad las medias y varianzas
fueron:
X 1  42.54 X 2  40.33
2
S1 =2.96 S2 2 =1.53
Construir un intervalo de confianza del 90%.

s12 s22  12 s12 s22

P(  2 )  1
f ( 2,n1 1,n2 1)  2 f (1 2,n 1,n 1)
1 2
s12
 1.935
s22
F (0.05, 14,14)= 2.46
F (0.95, 14,14)=
1.935 𝜎 1.935
𝑃( ≤ ≤ ) = 0.9
2.46 𝜎 0.41
𝜎
𝑃(0.787 ≤ ≤ 4.72) = 0.9
𝜎
2.2.9. Intervalo de confianza para proporciones
Si P̂ es la proporción de observaciones de una muestra aleatoria de tamaño n que

pertenece a una clase de interés, entonces un intervalo de confianza aproximado del
100(1-α) % para la proporción P que pertenece a esta clase es:
pˆ qˆ pˆ qˆ
P ( pˆ  z 2  P  pˆ  z 2 )  1
n n
Donde z 2 es el punto crítico superior que corresponde al porcentaje  2 de la
distribución normal estándar.
Demostración:
El estadístico pˆ  P
Z
pq
n
Tiene una distribución normal estándar
P (  z 2  Z  z 2 )  1  
pˆ  P
P (  z 2   z 2 )  1  
pq
n
pq pq
P ( pˆ  z  2  P  pˆ  z 2 ) 1
n n
1
 2  2
En el intervalo anterior p y q son desconocidos lo que se hace es remplazar p y q por P̂

y q̂ .
pˆ qˆ pˆ qˆ
p( pˆ  z / 2  p  pˆ  z / 2 )  1
n n
Demostrar que el tamaño de muestra para estimar una proporción es:
z2 / 2 pˆ qˆ
n
2
Los intervalos de confianza unilaterales están dados por la siguiente expresión:
pq
p  pˆ  z Unilateral superior
n
pq
p  pˆ  z Unilateral inferior
n
Ejemplo: A una muestra aleatoria de 344 mayoristas industriales se les pregunto ¿cuál
es la política de su empresa con respecto a la aceptación por parte del personal de
compras de regalos que eventualmente reciben de los proveedores? 83 de estos

mayoristas respondieron que la decisión es del personal de compras. Calcular un
intervalo de confianza del 90% para la proporción poblacional.
83 z / 2  z0.05  1.645
pˆ   0.241 qˆ  1  pˆ  0.759
344
 pˆ qˆ pˆ qˆ 
p  pˆ  z / 2  p  pˆ  z / 2   0 .90

 n n 
 0.241 * 0.759 0.241 * 0.759 
p 0.241  1.645  p  0.241  1.645   0.90

 344 344 
p 0.203  pˆ  0.279   0.90
2.2.10. Intervalo de confianza para la diferencia de proporciones
Si p̂1 y p̂ 2 son las proporciones muéstrales de una observación de dos muestras

aleatorias de tamaños n1 y n2 que pertenezca a una clase de interés, entonces un
intervalo de confianza aproximado del 100(1-α) % para la diferencia de proporciones
verdadera p1-p2 es:
pˆ qˆ1 pˆ 2qˆ2 pˆ qˆ pˆ qˆ
p pˆ1  pˆ 2  z/ 2   p1  p2  pˆ1  pˆ 2  Z/ 2 1 1  2 2  1
n1 n2 n1 n2
Donde Zα/2 es el punto crítico superior que corresponde α/2 de la distribución normal
estándar. Y sus intervalos unilaterales son:
pˆ 1qˆ1 pˆ 2 qˆ 2
pˆ 1  pˆ 2  z   p1  p 2 Inferior
n1 n2
pˆ1qˆ1 pˆ 2 qˆ 2
pˆ1  pˆ 2  z   p1  p 2
n1 n2 Superior
Ejemplo: Un grupo de investigadores desea comparar los efectos de dos tratamientos

sobre los tiempos medios de recuperación de pacientes. 200 pacientes fueron
asignados aleatoriamente en dos grupos iguales. El primer grupo recibió el tratamiento
habitual, 78 se recuperaron en un plazo de 3 días; el otro grupo de 100, recibió otro
tratamiento y de ellos, 90 se recuperaron en 3 días. El médico quiere estimar las
diferencias de proporciones con una confianza del 90%.
pˆ1  0.78 pˆ 2  0.90

qˆ1  0.22 qˆ 2  0.1
n1=100 n2=100
pˆ 1  pˆ 2  0.12 z / 2  1.96
 0.78* 0.22 0.9 * 0.1 0.78* 0.22 0.9 * 0.1 

p  0.121.96   pˆ1  pˆ 2  0.121.96    0.95
 100 100 100 100 

p  0.22  1.96(0.051)  pˆ1  pˆ 2  0.02  1.96(0.051)  0.95 
p  0.22  pˆ1  pˆ 2  0.02   0.95
CAPÍTULO III
PRUEBAS DE HIPÓTESIS
En los temas anteriores el interés consistía en estimar una media, proporción, varianza,
diferencia de medias, diferencia de proporciones y razón de varianzas a través de una
estimación puntual o por intervalos. Sin embargo muchos problemas de ingeniería,
administración y científicos requieren aceptar o rechazar una hipótesis sobre uno o más
parámetros. Para esto estudiaremos la prueba de hipótesis.
Ejemplo:
 El ingreso promedio de los hogares de Pereira es de 1.500.000

 El porcentaje de personas sin empleo por hogar es del 30%
 La cantidad de vehículos que llegan a un semáforo en intervalos de 5 minutos sigue
una distribución Poisson.
 La variabilidad en el tiempo de duración de la producción de baterías es de 6 meses.
Con el fin de explicar las partes que conforman una prueba de hipótesis se dará un
pequeño Ejemplo:
Se cree que la rapidez de combustión de un agente sólido tiene un promedio de 50

cm/s. En esta afirmación o proposición se puede identificar una hipótesis nula y alterna.
Ho   50cm / s
Ha   50 cm / s
La hipótesis alterna puede ser bilateral o unilateral
Bilateral Unilateral
Ho   50cm / s Ho   50 Ho   50
Ha   50 cm / s Ha   50 Ha   50
Toda hipótesis es una proposición sobre la población y no sobre la muestra. Los

resultados muestrales son utilizados para corroborar o negar la hipótesis nula.
Retomando nuestro ejemplo suponga que se toma una muestra de tamaño n=10 y
  2.5 y se calcula la media de esta muestra x , dicha media es una variable aleatoria
que puede tomar muchos valores.
Supóngase que se toma la siguiente decisión, si 48.5  x  51.5 se acepta Ho   50 y si

x  48.5 o x  51.5 se rechaza Ho   50 .
Se presentan dos regiones: Región de aceptación y región de rechazo o crítica.
R.A.
R.R.
R.R.
48.5 50 51.5
La regla de decisión es la siguiente: si x de la muestra se ubica en la región crítica se

rechaza la hipótesis nula, si por el contrario el valor observado de x se encuentra en la
región de aceptación se concluye que no existe evidencia para rechazar la hipótesis
nula.
En este proceso de toma de decisiones basadas en los resultados de la muestra se

presentan cuatro estados:
Decisión Ho verdadero Ho es falsa

Rechazar Ho Error tipo I Correcto
No rechazar Ho Correcto Error tipo II
  Error tipo I= P (Rechazar Ho/ Ho es verdadera)

  Error tipo II=P (No rechazar Ho/ Ho es falsa)
3.1. Evaluación del Error Tipo I: ( )

Para nuestro Ejemplo podemos calcular la probabilidad de cometer error tipo I:
  P ( x  48.5 )+P ( x  51.5 )
Estandarizando se tiene que:

x1   x2  
z1  z2 
 
n n
Supóngase que la desviación estándar a la rapidez de la combustión es de   2.5
48.5  50 51.5  50
z1   1.90 z2   1.90
2. 5 2 .5
10 10
  P ( z  1.90 )+P ( z  1.90 ) = 2[1-P (Z≤1.90)]= 0.0574 ó

= 0.0287+0.0287=0.0574
Esto significa que el 5.74% de todas las muestras conducen a rechazar H o cuando la
rapidez a la combustión verdadera neta es de 50 cm/s.
Existen dos maneras de disminuir el error tipo I:
a) Aumento de los límites
48 48.5 50 51.5 52
  P ( x  48 )+P ( x  52 )
Estandarizando se tiene que:
48  50 52  50
z1   2.53 z2   2.53
2 .5 2 .5
10 10
  P ( z  2.53 )+P ( z  2.53 )=0.0057+0.0057=0.0114

= 2[1-P (Z≤2.53)]=0.0114
Dicho valor es menor que 0.0576 para (48.5  x  51.5)

b) Aumentando el tamaño de muestra
Supongamos que se toma una muestra de tamaño n=16 (en vez de n=10):
  P (48.5  x  51.5)
48.5  50 51.5  50
z1   2.40 z2   2.40
2 .5 2 .5
16 16
  P ( z  2.40 ) + P ( z  2.40 )= 0.0082+0.0082 = 0.0164 que es menor que 0.0574
3.2. Evaluación del Error tipo II (β)
El error tipo II está definido como:

  Error tipo II = P (aceptar Ho/ Ho es falsa)
Con el fin de evaluar el error tipo II se hace necesario dar valor al parámetro  valor
verdadero de la rapidez a la combustión, supongamos que  =52
  P (48.5  x  51.5 /   52)
48.5  52 51.5  52
Z1   4.43 z2   0.63
2 .5 2 .5
10 10
  P (48.5≤ X ≤51.5)  P (-4.43≤Z≤-0.63)=

P (Z≤ -0.63) - P (Z≤-4.43)=0.2643-0.00=0.2643
La probabilidad de aceptar que la media es de  =50 cuando la verdadera media es de

 =52 es de 0.2643.
El error tipo II aumenta cuando la verdadera media se acerca a la planteada en la

hipótesis nula  =50.
Ejemplo: si µ=50.5
Se tiene que β=P (48.5  X  51.5 /   50.5)

48.5  50.5 51.5  50.5

Z1   2.53 Z2   1.27
0.79 0.79
β= P (-2.53≤Z≤1.27)= P (Z≤1.27)-P (Z≤-2.53)

= 0.898-0.0057 =0.8923
La probabilidad del error tipo II decrece al aumentar el tamaño de muestra.
Ejemplo: Hallar el error tipo II para n=16,   2.5 y la verdadera media es  =52
  P (48.5  x  51.5 /   52)

48.5  52 51.5  52
Z1   5.60 Z2   0.80
0.625 0.625
z1= - 5.60 z2= - 0.80
  P ( 5.60  z  0.80)  P ( z  0.80)  P ( z  5.60)  0.2119  0  0.2119
Recuerde que para n=10,  =52,   2.5 ,   0.2643 , a continuación se resume el valor
de  y  para distintos valores de  y n
Región de Tamaño de   ,  =52  ,  =50.5

aceptación muestra
48.5  x  51.5 10 0.0574 0.2643 0.8923
48  x  52 10 0.0114 0.5 0.9705
48.5  x  51.5 16 0.0164 0.2114 0.9445
48  x  52 16 0.0014 0.50 0.9918
Conclusiones
1. Los errores tipo I y II están asociados, si la probabilidad de uno aumenta la

probabilidad del otro disminuye.
2. Un aumento en el tamaño de la muestra reduce tanto  como  siempre y cuando
los valores críticos permanecen constantes.
3. El error tipo II  aumenta a medida que el verdadero valor del parámetro se acerca
al parámetro propuesto en la hipótesis nula.
3.3. Potencia de la prueba
Es la probabilidad de rechazar la hipótesis nula cuando ella es falsa.
P=P (rechazar Ho/Ho es falsa)

P=1-   1- P (aceptar Ho/Ho es falsa)=Potencia de la prueba
Ejemplo:
Para el problema donde Ho   50

Ho   50
Y el verdadero valor del parámetro   52 ,   2.5 , n=10 se tiene que   0.2643
Por lo tanto la potencia de la prueba P= 1-   1-0.2642=0.7357

Cuando la velocidad promedio de combustión es de 52 cm/s la probabilidad de rechazar
Ho   50 es de 0.7353, el 73.53% de las muestras que se toma se rechazará H o
siendo ésta falsa (decisión correcta)
Pasos Para Probar una Hipótesis
1. Identifique los datos problema que determinan el tipo de parámetros a probar

2. Establecer las Ho y Ha
3. Seleccionar el nivel de significancia.
4. Establecer el estadístico de prueba calculando su valor con los datos del problema.
5. Comparar los pasos 3 y 4 identificando los valores críticos y la ubicación del
estadístico de prueba establezca la conclusión.
3.4. Prueba de hipótesis sobre la media, varianza conocida
Un determinado tipo de aeronaves son impulsadas por un combustible sólido. Una de

las características importantes de este producto es la rapidez de combustión. Las
especificaciones requieren que la rapidez promedio de combustión sea de 50 cm/s. Se
sabe que la desviación estándar es   2 cm/s. El experimentador especifica una
probabilidad para el error tipo de α=0.05. Se selecciona un tamaño de muestra de n=25
y obtiene una rapidez promedio muestral de x =51.3 cm/s. ¿A qué conclusión debe
llegar?
Solución
1. Datos del problema

Una prueba de hipótesis sobre la media de la rapidez a la combustión
x  51.3  2 n=25   0.05
Ho   50
Ha   50
  0.05
x  0 51.3  50
z  Estadístico de Prueba z0   3.25
 2
n 25
Para un nivel de significación del 0.05 y con una muestra de tamaño 25 la rapidez de
promedio de combustión es diferente de 25.
R.R. R.R.
0.025 0.025
0.95
pˆqˆ pˆqˆ
2  p  pˆ  z / 2
n n
3.4.1. Uso de los valores P para una prueba
El valor P es el nivel de significancia más pequeño que conduce al rechazo de la

hipótesis nula Ho
2 1  p  z  zo  para una prueba de dos colas

Ho    o Ha    o
P= 1-P ( z  zo ) para una prueba de cola superior
Ho    o Ha    o
P ( z  zo ) para una prueba de una sola cola
Ho    o Ha    o
En nuestro ejemplo p=2 1  P z  3.25  0.012 la hipótesis nula se rechaza debido a

que   0.05  P  0.012
3.4.2. Cálculo del Error Tipo II
a) Aplicando la fórmula:
El error tipo II depende del verdadero valor que toma el parámetro, del tamaño de
muestra, del tamaño del error tipo I (  )
Consideremos la siguiente hipótesis bilateral
Ho    o
Ha   o
Supóngase que la hipótesis nula es falsa y que el verdadero valor de la media
  o   donde   0
x  o x   o    
El estadístico de prueba z o   
  
n n n
Tomado el valor esperado de zo
 
 
x   o       n   o       o     n
E z o   E   E   
       
 
 n  n
0  n  n
E  zo    
  
n
 
 
V ( zo )  V 
x    o    
 n   1  V (z )
   
o
 
 n 
Normal estándar
Constante
 n 
Por lo tanto z o  N  ,1 
  
La probabilidad de error tipo II se presenta si  z / 2  z o  z / 2
  P ( z / 2  z  z / 2 )  P( zo  z / 2 )  P( z0   z / 2 )
Como z no es normal estándar, debe estandarizarse:
 n
 z / 2 
 z / 2  E ( zo ) 
z01  
 zo 1
 n
z / 2 
z / 2  E ( z o ) 
z 02  
 zo 1
Por lo tanto
P (Error tipo II)=   P (  z / 2  z  z / 2 )  P ( z o  z / 2 )  P ( z 0   z / 2 )

 n  n
  P ( z0  z / 2  )  P( z0   z / 2  )
 
Ejemplo
Hallar el error tipo II si la verdadera rapidez promedio es

  51, n  25,  2,  0.05
Ho   50   0   51=50+   1
Ho   50 z / 2  z 0.025  1.96
1 25 1 25
  P ( z o  1.96  )  P ( z o  1.96  )
 
  P( z o  0.54)  P( z o  4.46) =0.2946-0=0.2946
b) Utilizando las curvas características de operación.

La mayoría de libros de estadística proporcionan los gráficos característicos de

operación las cuales permiten identificar aproximadamente el error tipo II  . Para
lograr esto se hace necesario definir  , n,  donde  se calcula de la siguiente
manera
|   o | |  |
 
 
  0
 Si la hipótesis alterna es de cola superior

o  
 Si la hipótesis alterna es de cola inferior

Ejemplo: Hallar el error tipo II empleando la curva característica de operación para el

siguiente problema, siendo   51,  0.05, n  25,  2
|   o | 1
Ho   50  
 2
Ho   50
1
En la nueva curva característica de operación para   , n=25,   0.05 se puede
2
determinar que   Error tipo II=0.30
Dicho resultado es casi igual al calculado aplicando la fórmula.

En la curva característica de operación puede observarse la relación existente entre  ,
n,  para un  dado.
 Entre más se aleja la verdadera media  de  o menor es la probabilidad del

error tipo II para un n y  dados.
 Para un  y  dadas el error tipo II disminuye a medida que n crece.
Ejemplo
En el problema de combustión supongamos que al analista le gustaría diseñar la
prueba de modo que si el verdadero valor de combustión difiere de 1 cm/s del valor de
50 cm/s la prueba identifica (rechaza Ho   50 ) con una probabilidad de 0.90, con 
=0.05. Hallar el tamaño de muestra
|   0 | 1
 
 2
1   P 1-β=0.90 β=0.10
1
Para  =0.05,   0.10,   en la curva característica n=40
2
3.4.3. Cálculo del tamaño de la muestra
También es posible hallar el tamaño de muestra para valores dados de  ,  ,  . Estas

fórmulas son alternativas para las curvas características donde la hipótesis alternativa
es bilateral.
 n  n
  P ( z0  z / 2  )  P( z 0   z / 2  )
 
 n
Puesto que   P ( z 0  z / 2  )0

Se tiene que
 n
 z   z / 2 

 n
 z / 2  z 

n
z / 2  z    2
2
2
 n
Esta aproximación es buena si P ( z 0   z / 2  ) es pequeña comparado con  .

Ejemplo
En el problema del combustible sólido  2 δ=51-50=1
,   0.05,   0.10, z / 2  z0.025  1.96, z   z0.10  1.28
n
1.96  1.28 2 2
2
 42
12
Valor muy próximo utilizando la curva característica.
El tamaño de muestra para pruebas unilaterales se calcula de la siguiente manera:

z  /2  z   2
2
n
2
Existe una relación entre las pruebas de hipótesis y los intervalos de confianza que se
puede resumir de la siguiente manera. Si el valor del parámetro que plantea la hipótesis
nula se ubica dentro del intervalo para un nivel de confianza 1   se aceptara la
hipótesis nula de lo contrario ésta es rechazada.
3.5. Pruebas de Hipótesis para la media, varianza desconocida, población normal
Cuando se prueba una hipótesis sobre la media de una población con  desconocida
se plantea el procedimiento anterior si el tamaño de muestra es grande n>30 por el
teorema central del límite, si el tamaño de muestra es menor a 30 y se supone que la
población es normal, se empleará el estadístico t para dichas pruebas:
X 
t0 
S
n
Donde S es una estimación de .
Ejemplo:
En un artículo los resultados de pruebas de resistencia si la adhesión de 22

especimenes de aleación. La carga para la que cada espécimen falle es la siguiente en
Mpa (Mega Pascales).
19.8 18.5 17.6 16.7 15.8

15.4 14.1 13.6 11.9 11.4
11.4 8.8 7.5 15.4 15.4
19.5 14.9 12.7 11.9 11.4
10.1 7.9
La media y desviación estándar muestral calculadas son X = 13.7 S=3.55

¿Sugieren los datos que la carga promedio de falla es mayor a 10 Mpa?
Suponga que la carga donde proviene los datos tiene una distribución normal, utilice un
nivel de significancia de  = 0.05 para probar dicha hipótesis
1. Datos. Se requiere hacer pruebas sobre μ

S = 3.55 X  13.71 n  22
2. Ho μ = 10
Ha μ > 10 la carga promedio de falla es mayor a 10
3.  = 0.05
13.71  10
4. el estadístico de prueba t0   4.90
3.55
22
5. t,n-1 = t 0.05,21 = 1.721 valor crítico como t0 > t 0.05,21

4.90 > 1.721
Se rechaza la hipótesis nula.

Se concluye que con un nivel de significancia de α=0.05 la carga de falla es a mayor a
10.
Para calcular el tamaño de muestra y determinar la probabilidad de cometer error tipo II

se utilizan las curvas características.
Ejemplo
Considere en el anterior problema, que la carga promedio de falla difiere de 10 Mpa

como máximo de 1 MPa, para un tamaño de muestra de n=22,  =0.05, δ=1 por lo
tanto
  0 1
   0.28
 3.55
Al consultar la curva característica el valor de =0.68 aproximadamente. Por lo tanto la

probabilidad de rechazar Ho cuando la verdadera media difiere de 1 MPa es de: 1-=1-
0.68=0.32
Como puede observarse éste es un valor muy pequeño.

Si se quiere aumentar la potencia a 0.80, ¿qué tamaño de muestra debe tomarse? P =
1- = 0.80, = 0.20
Consultando la curva característica para = 0.20,  =0.28 se tiene que

n ≈75
3.6. Pruebas de hipótesis para µ1-µ2 varianzas conocidas
En la distribución muestral para diferencia de medias y en la estimación por intervalos

se definió que el estadístico
X 1  X 2  ( 1   2 )
Z0 
 21  22

n1 n2
 12  22
Sigue una distribución normal X 1  X 2  ( 1   2 ,  )
n1 n2
Si la hipótesis nula es crítica Ho μ1 = μ2 el estadístico queda como:

X1  X 2
Z
 12  22

n1 n2
Ejemplo: Un diseñador de productos está interesado en reducir el tiempo de secado de

una pintura tapa poros. Se prueban dos fórmulas de pintura; la fórmula 1 tiene el
contenido químico estándar, la fórmula 2 tiene un nuevo ingrediente secante que debe
reducir el tiempo de secado. La desviación estándar de secado es de 8 minutos, ésta
desviación estándar no debe afectarse si se utiliza un ingrediente químico. Se pintan 10
especimenes con cada fórmula, los tiempos promedios de secado son X 1  121 min y
X 2  112 min , respectivamente. ¿A qué conclusión debe llegar el diseñador del producto
sobre la eficacia del nuevo producto utilizado  = 0.05?
Pasos Para Probar La Hipótesis
X 1  121 X 2  112
1. Los datos 1  8 2  8
n1  10 n2  10
2. Ho μ1 = μ2
Ha μ1 > μ2
Si se rechaza Ho si el nuevo ingrediente disminuye el tiempo promedio deseado.
3.  = 0.05
4. Estadístico de prueba
X1  X 2 121  112
Z =  2.52
 12  22 82 8 2
 
n1 n2 10 10
5. Z = Z0.05 = 1.645 punto crítico
Se rechaza Ho si Z0 > Z como Z0=2.52 > Z = 1.645 se rechaza la hipótesis nula.
Concluimos que el nuevo ingrediente disminuye el tiempo de secado.
 Selección del tamaño de muestra

Las curvas características son empleadas para evaluar el error tipo II y calcular el
tamaño de muestra bajo la condición que n1= n2. El valor de d para una prueba bilateral
y unilateral se calcula de la siguiente manera:
1   2 
d  Bilateral si Ha, μ1  μ 2
 2
1
2
2    22
2
1
1   2 
d   Unilateral superior si Ha, μ 1 > μ 2
 12   22  12   22
 2  1 
d   Unilateral inferior si Ha, μ 1 < μ2
 12   22  12   22
El tamaño de muestra se calcula de la siguiente manera como otra alternativa si n1 =

n2
( Z  / 2  Z  ) 2 ( 12   22 )
n Bilateral
2
( Z   Z  ) 2 ( 12   22 )
n Unilateral
2
Ejemplo: Para el experimento del tiempo de secado de pintura la diferencia es como

máximo de 10 minutos, encuéntrese los tamaños de muestra requeridos para detectar
esta diferencia con una probabilidad de 0.90.
P= 1- 0.90 = 1-β β= 0.10
1   2 10
d   0.88
 2
1
2
2 8 82 2
Para β=0.10, d=0.88 α=0.05 la curva característica encuentra un tamaño de muestra

de n = n1 = n2 ≈ 11
Ejemplo: Calcule el tamaño de muestra aplicando la fórmula con d=10, α=0.05

Z0,05=1.645 β=0.10 Zβ= 1.28 σ 1= σ 2=8 se tiene que:
( Z   Z  ) 2 ( 12   22 ) (1.645  1.28) 2 (8 2  8 2 )
n =
2 10 2
n = 11 resultado que concuerda con el obtenido en la curva característica.
3.7. Pruebas de hipótesis µ1-µ2, varianzas desconocidas
Caso I 12   22
El estadístico de prueba para esta hipótesis fue desarrollado en la estimación puntual y
por intervalo
X 1  X 2  ( 1   2 ) (nn  1) S12  (n2  1) S 22

T0  Donde S p2 
1 1 n1  n2  2
Sp 
n1 n2
Para la prueba bilateral superior se rechaza Ho si t o >tα/2,n1+n2-2 o si

t o <-tα/2,n1+n2-2
Para la prueba unilateral inferior se rechaza Ho si t o >tα,n1+n2-2
Para la prueba unilateral inferior se rechaza Ho si t o <tα,n1+n2-2
Ejemplo: Se analiza dos catalizadores para determinar la forma en que afectan el

rendimiento promedio de un proceso químico. De manera específica, el catalizador
también es aceptable, debido a que el catalizador 2 es más económico, esto puede
adaptarse siempre y cuando no cambie el rendimiento del proceso. Se hace una prueba
en una planta piloto los resultados aparecen a continuación:
OBSERVACIÓN Catalizador 1 Catalizador 2

1 91.50 89.19
2 94.18 90.95
3 92.18 90.46
4 95.39 93.21
5 91.79 97.19
6 89.07 97.04
7 94.72 91.07
8 89.21 92.75
¿Existe alguna diferencia entre los rendimientos promedio? Utilice α=0.05

X 1  92.215 X 21  92.733
1. S1  2.34 S 2  2.48
n1  8 n2  8
2. Ho µ1=µ2
Ha µ1≠µ2
3. α=0.05
X 1  X 2  ( 1   2 ) ( nn  1) S12  ( n2  1) S 22
2 7 * ( 2.34) 2  7( 2.48) 2
4. T0 
1 1
SP  n1  n2  2

882
Sp 
n1 n2
Sp= 7.30  2.70
X1  X 2  0 92.215  92.733  0
T0    0.38
1 1 1 1
Sp  2.70 
n1 n 2 8 8
5.
t / 2,n n 2  t 0.025,14  2.145;t 0.025,14  2.145
1 2
Conclusión:
Como el estadístico de prueba to=-0.38 es mayor que 2.145>to>-2.145 se halla en la

región de aceptación.
Esto es con un nivel de significancia de 0.05 no se tiene evidencia fuerte que permita
concluir que el catalizador 2 dará como resultado un rendimiento promedio diferente del
obtenido con el uso del catalizador 1.
Caso II σ12≠σ22
En algunas situaciones no es razonable suponer que las varianzas

desconocidas y son iguales. En este caso el estadístico.
X 1  X 2  (1   2 )
T0 
2 2
S1 S
 2
n1 n2
Tiene una distribución V con grados de libertad dado por:
Ejemplo: Un fabricante de monitores prueba dos diseños de microcircuitos para

determinar si producen un flujo de corriente equivalente. El departamento de ingeniería
ha obtenido los datos siguientes:
Diseño 1 n1=15 X 1  24.2 S21=10

Diseño 2 n2=10 X 2  23.9 S22=20
Con α=0.10 se desea determinar si existe alguna diferencia significativa en el flujo de

corriente promedio entre los dos diseños, donde se supone que las dos poblaciones
son normales pero con varianzas desconocidas σ12 y σ22 y diferentes.
1. Datos
x1  24.2 x 2  23.9
S12  10 S 22  20
n1  15 n 2  10
2. Ho µ1=µ2
Ha µ1≠µ2
3. α=0.10
4. El estadístico de prueba
X1  X 2  0 24.2  23.9
T0  =  0.18
S2
2
10 20
S1
2

 15 10
n1 n2
Los grados de libertad para la t:

2
 10 20 
  
  15 10   2  17
10  
15 
2
20
10
2

16 11
Para α=0.10 se tiene que t0.05, 16 = 1.746 - t0.05, 16 = -1.746
Como t0= 0.18 se halla en la región factible -1.746≤0.18≤1.746 para un nivel de

significancia de α=0.10 no se rechaza la hipótesis nula, es decir, no existe evidencia
fuerte que los flujos de corriente promedio de los dos diseños sea diferente.
El valor de P es de 0.854 P (to>0.18)= 0.854
Calculo del tamaño de la muestra
Las curvas características de operación se utilizan para evaluar el error tipo II para el
caso donde σ12= σ22.
Cuando σ12≠ σ22 no existe curva característica de operación disponible.
El valor  cuando σ12= σ22 y n1=n2=n es:
| 1  2 | 
  Bilateral Ha µ1≠µ2
2 2
  2 
 1  Unilateral superior Ha µ1>µ2
2 2
 2  1 
  Unilateral inferior Ha µ1<µ2
2 2
Por tratarse de dos muestras el tamaño de muestra dado en la curva de operación se

n  1
llamara n0* donde n*=2n-1 n=n*+1/2 n 
2
Para el ejemplo anterior si el catalizador 2 produce un rendimiento promedio que difiere

un 4% del rendimiento promedio del catalizador 1, entonces es deseable rechazar la
hipótesis nula con una probabilidad al menos de 0.85.
¿Qué tamaño de muestra se requiere para este fin?
Para α=0.05 Sp=2.70 P=1-β=0.85 Β=0.15
 4.0
    0.74
2 2 * 2.70
n  1
En la curva característica operacional se tiene que n*=20 por tanto n 
2
21
n  10.5
2
n1  n2  11
3.8. Prueba T pareada
Cuando las observaciones sobre las dos poblaciones de interés se recopilan por pares,
cada par de observaciones, se toman bajo condiciones homogéneas.
Es estadístico de prueba para observaciones pareadas es el siguiente:
 di  D 
2
t
D
Donde D
 di SD 
Sd n n 1
n
Ejemplo: Se comparan dos métodos para predecir la resistencia al corte de vigas de

placa de acero. A continuación se presentan los datos para estos dos métodos.
Viga Método I Método II Diferencia

1 1.186 1.061 0.125
2 1.151 0.992 0.159
3 1.322 1.063 0.259
4 1.339 1.062 0.277
5 1.200 1.065 0.135
6 1.402 1.178 0.224
7 1.365 1.037 0.328
8 1.537 1.086 0.451
9 1.559 1.052 0.507
Se desea determinar si existe alguna diferencia en el promedio entre estos dos

métodos con α=0.05.
Pasos para realizar las pruebas:
1. Los datos: d  0.238 Sd=0.135099 n=9
2. Ho µD=0
Ha µD≠0
3. α=0.05
d 0.2736
4. El estadístico de prueba t0    6.080
SD 0.135099
n 9
5. Rechazamos Ho si to > t0.025, 8 = 2.306 o si to ≤- t0.025, 8= -2.306

Conclusión: como to=6.080 > 2.306, se concluye que los métodos de predicción
proporcionan resultados diferentes. Los datos indican que el método I produce, en
promedio predicciones de resistencia al corte mayores que el método II.
3.9. Pruebas de hipótesis para la varianza
Para probar la hipótesis sobre la varianza o desviación estándar de una población

existen dos procedimientos; uno se basa en que las poblaciones son normales, el otro
está dado para muestras grandes.
a. Procedimiento de prueba para poblaciones normales.
Para probar la hipótesis H0 σ2= σ20

Ha σ 2≠σ20 o σ2<σ20 o σ2>σ20
Se utiliza el estadístico de prueba
x02 
n  1 S 2
 02
Ejemplo: Un fabricante de detergentes líquido está interesado en la uniformidad de la

máquina utilizada para llenar las botellas. Si la varianza del volumen de llenado es
mayor a 0.01, entonces existe una proporción inaceptable de botellas que sean
llenadas con una cantidad mayor de líquido. Al tomar una muestra aleatoria de 20
botellas se obtiene una varianza muestral de llenado de S 2= 0.0153. ¿Existe evidencia
en los datos muestrales que sugieran que el fabricante tiene un problema con el llenado
de las botellas? Utilice α=0.05
Pasos para la prueba

1. Datos n=20 S2=0.0153 σ2=0.01
2. Ho σ2=0.01
Ha σ2≥0.01
3. α=0.05
4. Estadístico de prueba x
2

n  1 S 2

19 * 0.0153
 29.07

0 2
0 0.01
5. x0.05,19  30.14
2
Puesto que x02  29.07  x02.05,19  30.14 se concluye que no hay ninguna evidencia fuerte
de que la varianza del volumen de llenado sea mayor a 0.01.
Cálculo de P utilizando la tabla x 2 se tiene que x02.10,19  27.20 y x02.05,19  30.14

dado que 27.20 < 29.07<30.14, se concluye que el valor de P 0.05 < P < 0.10
3.10. Pruebas para la igualdad de dos varianzas
Si las dos muestras que permiten realizar las pruebas sobre las varianzas poblacionales
provienen de poblaciones normales, se utilizará el siguiente estadístico de prueba.
S12
F 2
S2
El cual tiene una distribución f con n1-1 grados de libertad en el numerador y n2-1
grados de libertad en el denominador, si la hipótesis nula es cierta Ho σ 12= σ22 para la
prueba
Ho σ12= σ22
Ha σ12≠ σ22
f o  f  / 2 ,n1 1,n 2 1
Se rechaza Ho si ó
f o  f 1   / 2 , n1  1 , n 2  1
1
Además f1 / 2 ,n11,n 2 1 
f  / 2 ,n 2 1,n11
σ12 es la varianza que se propone como mayor por lo tanto una prueba de hipótesis
unilateral es de la siguiente forma:
Ho σ12= σ22
Ha σ 12> σ22
f o  f  , n1 1, n 2 1
Ejemplo: Una muestra aleatoria de 15 estudiantes de Ingeniería eléctrica y 22

estudiantes de ingeniería industrial que participaron en un experimento para medir su
destreza manual. La varianza de la muestra fue de 1225 y 1600 respectivamente. Se
desea saber si estos datos proporcionan la evidencia suficiente para concluir que la
varianza de los puntajes de la prueba de destreza es mayor en los estudiantes de
ingeniería industrial a los estudiantes de ingeniería eléctrica, con α= 0.05
Pasos para la prueba
1. Los datos S21=1600 S22=1225

n1=22 n2=15
Ho  1   2
2 2
2.
Ha  2   2
1 2
3. α=0.05
4. S12 1600 1.31

f 2 
S2 1225
5. f,n11,n21  f0.05,21,14= 2.39
Conclusión: no es posible rechazar la hipótesis nula ya que f=1.31≤2.39 los datos no

presentan evidencia para creer que existen diferentes varianzas en la destreza manual
entre estudiantes de ing. eléctrica e industrial.
3.11. Prueba de hipótesis para una proporción
Para realizar las pruebas de hipótesis para una proporción, se realiza el siguiente
procedimiento:
1. Datos n p̂ p
2. Ho p  p0 Ha p  p0
3. Nivel de significancia: α
4.
𝑝̂ − 𝑝
𝑍=
𝑝𝑞
𝑛
5. Decisión estadística
Para calcular la muestra se utiliza la siguiente formula:
𝑧 ⁄ +𝑧 (𝑝𝑞)
𝑛=
𝜀
Ejemplo: Hay interés en saber la proporción de la población de conductores que

utilizan con regularidad el cinturón de seguridad. En una encuesta de 300 conductores,
123 de ellos dijeron que regularmente usaban el cinturón de seguridad. ¿Es posible
concluir de estos datos que para la población muestreada, la población de quienes
utilizan regularmente el cinturón de seguridad del asiento no es del 0.50? Utilice α =
0.05
123
1. Datos n=300 pˆ   0.41
300
2. Ho p  0.50 Ha p  0.50
3. α=0.05 ; los valores críticos de z con  1.96
0.41  0.50  0.09

4. z   3.11
0.5 * 0.5 0.0289
300
5. Decisión estadística: Se rechaza Ho, ya que -3.11< -1.96
6. Conclusión: Se concluye que la proporción de la población que usa regularmente el

cinturón de seguridad no es de 0.50. Para esta prueba, el valor de p<0.002, ya que -
3.11<-3.09
3.12. Prueba de hipótesis para diferencia entre dos proporciones
Para realizar las pruebas de hipótesis para comparar dos proporciones poblacionales,
se realiza el siguiente procedimiento:
1. Datos n1 p̂1 n2 p̂2
2. Ho p 2  p1  0
Ha p2  p1  0
3. Nivel de significancia: α
4.
(𝑝 − 𝑝 ) − (𝑝 − 𝑝 )
𝑍=
𝑝 𝑞 𝑝 𝑞
+
𝑛 𝑛
5. Decisión estadística
Para calcular el tamaño de muestra en diferencia de proporciones se utiliza la fórmula:
𝑧 ⁄ +𝑧 (𝑝 𝑞 + 𝑝 𝑞 )
𝑛=
𝜀
Ejemplo: En un estudio para comparar un nuevo tratamiento para la migraña con el

tratamiento habitual, 78 de los 100 individuos que recibieron el tratamiento habitual
respondieron favorablemente. De los 100 individuos que recibieron el nuevo
tratamiento, 90 respondieron favorablemente respondieron. ¿Proporcionan estos datos
la evidencia suficiente para afirmar que el nuevo tratamiento es más efectivo que el
habitual? Utilice α = 0.05
78 90
1. Datos n1=100 pˆ 1   0.78 n2=100 pˆ 2   0.90
100 100
2. Ho p 2  p1  0
Ha p 2  p1  0.50
3. α=0.05; los valores críticos de z con  1.645
0.90  0.78 0.12

4. z    2.34
0.78 * 0.22 0.90 * 0.10 0.0511

100 100
5. Decisión estadística: Se rechaza Ho, ya que 2.32> 1.645
6. Conclusión: Estos datos sugieren que el nuevo tratamiento es más efectivo que el
habitual. (Valor de p=0.0102)
3.13. Prueba de bondad de ajuste3
Anteriormente el interés ha sido la prueba de hipótesis estadística acerca de

parámetros sencillos de una población tales como la media, varianza y proporción.
Ahora se considerará una prueba para determinar si una población tiene una
distribución teórica especificada. La prueba está basada en qué tan bueno es un ajuste
3
RONALD E. WALPDE, REYMOND H. MYERS. Probabilidad y estadística para ingenieros, tercera
edición. Editorial iberoamericana 1987, p.340.
entre la frecuencia de ocurrencia de observaciones en una muestra observada y las

frecuencias esperadas obtenidas de la distribución hipotética.
Para ilustrar lo anterior, considérese el lanzamiento de un dado. Se conjetura que el

dado no está cargado. Lo cual es equivalente a probar la hipótesis de que la
distribución de resultados es la distribución discreta uniforme:
1
𝑓(𝑥) = , 𝑥 = 1, 2, … . , 6
6
Suponer que el dado es lanzado 120 veces y que se registra cada resultado.
Teóricamente, si el dado esta balanceado, se podrá esperar que cada cara ocurriera
120 veces. Los resultados se proporcionan en la siguiente tabla:
Caras
1 2 3 4 5 6
Observada 20 22 17 18 19 24
Esperada 20 20 20 20 20 20
Al comparar las frecuencias observadas con las frecuencias esperadas

correspondientes, se debe decidir si es más probable que ocurran estas discrepancias
como resultado de fluctuaciones en la muestra y de que el lado este balanceado o de
que el dado este cargado y que de la distribución de resultados no sea uniforme. Es
una práctica común referirse a cada resultado posible de un experimento como una
celda.
De aquí que, en la ilustración, se tienen 6 celdas. El estadístico apropiado en el cual se

basa el criterio de decisión para un experimento que involucre K celdas se define en el
siguiente teorema:
“La prueba de bondad de ajuste entre las frecuencias observada y esperada se basa en
la cantidad
𝑘
(𝑜𝑖 − 𝑒𝑖 )2
𝑥2 =
𝑒𝑖
𝑖=1
en donde X2 es un valor de una variable aleatoria cuya distribución muestral es muy

aproximada a la distribución ji-cuadrada con v = k-1 grados de libertad. Los símbolos 𝑜𝑖
y 𝑒𝑖 representan las frecuencias observada y esperada, respectivamente, para la i-
ésima celda.”
El número de grados de libertad asociado con la distribución ji – cuadrada analizado

aquí es igual a k-1 ya que hay solamente k-1 frecuencias de las k-1 celdas, también se
determina la frecuencia de la k-ésima celda.
Si las frecuencias observadas son cercanas a las frecuencias esperadas

correspondientes, el valor de X 2 será pequeño, indicando un buen ajuste. Si las
frecuencias observadas difieren considerablemente de las frecuencias esperadas, ese
valor de X2 será muy grande y el ajuste será deficiente. Un buen ajuste conduce a la
aceptación de H0 mientras que un ajuste deficiente conduce a su rechazo.
La región crítica caerá entonces en la cola derecha de la distribución ji-cuadrada. Para

un nivel de significancia igual a 𝛼, se encuentra el valor crítico 𝑋2𝛼 y entonces 𝑋2 > 𝑋2𝛼
constituye la región critica. El criterio de decisión descrito aquí no debe ser utilizado
a menos que cada una de las frecuencias esperadas sea al menos igual a 5. Esta
descripción puede requerir la combinación de celdas adyacentes, dando como
resultado una reducción en el número de grados de libertad.
De la tabla mostrada anteriormente se encuentra que el valor de 𝑋2 es:
(20 − 20)2 (22 − 20)2 (17 − 20)2 (18 − 20)2 (19 − 20)2 (24 − 20)2
𝑋2 = + + + + + = 1.7
20 20 20 20 20 20
𝑋20.05 = 11.070 Para v=5 grados de libertad.
Como 1.7 es menor que el valor crítico, se decide no rechazar H 0 para concluir que la
distribución es uniforme. En otras palabras, el dado esta balanceado.
3.14. Pruebas de independencia4
El procedimiento de la prueba ji-cuadrada puede también ser utilizado para probar la

hipótesis de independencia de dos variables de clasificación. Suponer que se desea
determinar si las opiniones de los votantes residentes en el estado de Illinois, afectados
por una nueva reforma fiscal son independientes de sus niveles de ingreso. En una
muestra aleatoria de mil volantes registrados del estado de Illinois, estos son
clasificados en categorías según su ingreso: baja, media o alta y según su acuerdo o
desacuerdo con la nueva reforma fiscal. Las frecuencias observadas se presentan en la
siguiente tabla (conocida como tabla de contingencia):
Nivel de ingreso
Reforma fiscal Bajo Medio Alto Total
A favor 182 213 203 598
En contra 154 138 110 402
Total 336 351 313 1000
4
RONALD E. WALPDE, REYMOND H. MYERS. Probabilidad y estadística para ingenieros, tercera
edición. Editorial iberoamericana 1987, p.344.
A los totales se les denomina frecuencias marginales. La decisión de aceptar o

rechazar la hipótesis nula de independencia entre la opinión de un votante afectado por
la reforma fiscal y su nivel de ingresos se basa en qué tan bueno es el ajuste que se
tiene entre las frecuencias observadas en cada una de las seis celdas de la taba y la
frecuencias que se esperarían para cada celda bajo la suposición de que la hipótesis
nula es verdadera. Para encontrar estas frecuencias esperadas, se definen los
siguientes eventos:
L: Un individuo seleccionado pertenece a la categoría baja de ingresos.

M: Un individuo seleccionado pertenece a la categoría media de ingresos.
H: Un individuo seleccionado pertenece a la categoría alta de ingresos.
F: Un individuo seleccionado está a favor de la nueva reforma fiscal.
A: Un individuo seleccionado está en contra de la nueva reforma fiscal.
Utilizando las frecuencias marginales, es posible listar las siguientes estimaciones de

probabilidad:
𝑃(𝐿) = 𝑃(𝑀) = 𝑃(𝐻) =
𝑃(𝐹) = 𝑃(𝐴) =
Ahora bien, si H0 es verdadera y las dos variables son independientes, se debería

tener:
336 598
𝑃(𝐿 ∩ 𝐹) = 𝑃(𝐿) 𝑃(𝐹) =
1000 1000
336 402
𝑃(𝐿 ∩ 𝐴) = 𝑃(𝐿) 𝑃(𝐴) =
1000 1000
351 598
𝑃(𝑀 ∩ 𝐹) = 𝑃(𝑀) 𝑃(𝐹) =
1000 1000
351 402
𝑃(𝑀 ∩ 𝐴) = 𝑃(𝑀) 𝑃(𝐴) =
1000 1000
313 598
𝑃(𝐻 ∩ 𝐹) = 𝑃(𝐻) 𝑃(𝐹) =
1000 1000
313 402
𝑃(𝐻 ∩ 𝐴) = 𝑃(𝐻) 𝑃(𝐴) =
1000 1000
Las frecuencias esperadas se obtienen multiplicando la probabilidad de cada celda por

el número total de observaciones. Como antes, se redondean estas frecuencias a un
decimal. De esta manera, se estima que el número esperado de volantes con bajos
ingresos en la muestra que favorecen la nueva reforma fiscal es:
336 598 (336)(598)

(1000) = = 200.9
1000 1000 1000
Cuando H0 es verdadera. La regla general para obtener la frecuencia esperada de

cualquier celda está dada por la siguiente fórmula:
(𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑐𝑜𝑙𝑢𝑚𝑛𝑎) 𝑥 (𝑡𝑜𝑡𝑎𝑙 𝑑𝑒𝑙 𝑟𝑒𝑛𝑔𝑙𝑜𝑛)

𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 =
𝑔𝑟𝑎𝑛 𝑡𝑜𝑡𝑎𝑙
En la siguiente tabla, entre paréntesis, la frecuencia esperada para cada celda al lado
del valor real observado. Nótese que las frecuencias esperadas en cualquier renglón o
columna suman el total marginal correspondiente.
Niveles de ingreso
Reforma fiscal Bajo Medio Alto Total
A favor 182(200.9) 213(209.9) 203(187.2) 598
En contra 154(135.1) 138(141.1) 110(125.8) 402
Total 336 351 313 1000
En el ejemplo es necesario calcular solamente las dos frecuencias esperadas del

renglón superior de la tabla y entonces encontrar las otras por sustracción. El número
de grados de libertad asociado a la prueba ji-cuadrada utilizada aquí es igual al número
de frecuencias de celdas que pueden ser llenadas en libertad cuando se dan los totales
marginales y el gran total, y en esta ilustración dicho número es dos. Una fórmula
sencilla que proporciona el número correcto de grados de libertad está dada por
v = (r - 1) (c - 1)
De aquí que, para el ejemplo, v = (2 – 1) (3 – 1) = 2 grados de libertad. Para probar la

hipótesis nula de independencia, se utiliza el siguiente criterio de decisión:
Calcular
(𝑜𝑖 − 𝑒𝑖 )2
𝑋2 =
𝑒𝑖
𝑖
donde la sumatoria corre sobre todas las celdas rc en la tabla de contingencia r x c. Si

𝑋2 > 𝑋2𝛼 con v = (r – 1) (c – 1) grados de libertad, rechazar la hipótesis nula de
independencia con un nivel de significancia α; de otra forma, aceptar la hipótesis nula.
Aplicando este criterio al ejemplo, se encuentra que
2 (182 − 200.9)2 (213 − 209.9)2 (203 − 187.2)2 (154 − 135.1)2

𝑋 = + + +
200.9 209.9 187.2 135.1
(138 − 141.1)2 (110 − 125.8)2
+ + = 7.85
141.1 125.8
𝑋20.05 = 5.991 con v = (2 – 1) (3 – 1) = 2 grados de libertad.
La hipótesis nula se rechaza con un nivel de significancia de 0.05 y se concluye que la

opinión de un votante afectado por la nueva reforma fiscal y su nivel de ingresos no
son independientes.
En una tabla de contingencia de 2 x 2, en donde de tiene solamente un grado de

libertad, se aplica una corrección denominada corrección de Yates para la
continuidad. Entonces, la fórmula corregida queda como
2 (|𝑜𝑖 − 𝑒𝑖 | − 0.5)2
𝑋 (𝑐𝑜𝑟𝑟𝑒𝑔𝑖𝑑𝑎) =
𝑒𝑖
𝑖
Cuando las frecuencias esperadas están entre cinco y diez, debe aplicarse la
corrección de Yates.

Libro Guía Estadística II

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Libro Guía Estadística II

Cargado por

Copyright:

Formatos disponibles

Texto guía – Estadística I (Inferencia Estadística) 1

En estadística 1 , el conjunto de resultados posibles de un fenómeno, o

Toda población se caracteriza probabilísticamente por variables aleatorias y éstas

Ejemplo: Caracterizar el estudiante típico de la Facultad de Ingeniería Industrial

Ahora que variables interesa medir a cada elemento de la población: Edad,

Es un subconjunto de una población que conserva sus mismas características, su

El número de muestras posibles de tamaño n que pueden ser obtenidas de una

La muestra es representativa de la población cuando ha sido elegida de manera

La aleatoriedad se relaciona con la probabilidad conocida de antemano que tiene

Esta desviación de la muestra es debido al proceso de selección, desviación que

1.2. Tipos de muestreo

1.2.1. Muestreo con reemplazo

Conduce a que los elementos de la muestra sean probabilísticamente

1.2.2. Muestreo sin reemplazo

Los elementos de la muestra no son independientes, es decir, a medida que

Ejemplo: Si en el ejemplo anterior tomamos una muestra de tamaño 2 y el

a) Primera extracción (90/100)

Distribución de probabilidad: de una variable aleatoria X es una descripción de las

Ejemplo: Si tenemos 100 bolas de las mismas características, numeradas 1, 2, 3,

1.2.3. Con reemplazo.

Ω = {(1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2), (3,3)}

Punto muestral Probabilidad asociada

1.2.4. Sin reemplazo o sin sustitución

Ω = {(1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2), (3,3)}

Punto Probabilidad asociada

2,1 P (2,1) = p (2) * p (1) / p (2) = (30/100) * (20/99) = 0.0606

Nota: p(A‫ח‬B)=p(A)*p(B/A), cuando los eventos A y B son dependientes

1.2.5. Variable Aleatoria

Variable aleatoria es una magnitud que puede tomar varios valores,

Ejercicio: clasifique las siguientes variables aleatorias como discretas o continuas:

variable aleatoria tipo

Cuando en un experimento no interesan los detalles del espacio muestral, sino la

Ω = {(c,c,c), (c,c,s), (c,s,c), (s,c,c), (c,s,s), (s,c,s), (s,s,c), (s,s,s)}

En el modelo de variable aleatoria hay tres conceptos básicos: su distribución,

Media, valor esperado o esperanza matemática es la media aritmética de los

Varianza se relaciona con la variabilidad o desviación de los datos con respecto a

1.2.5. Distribución de probabilidad discreta

Al conjunto de pares ordenados x, f(x)= P(X=x i), se le conoce como función de

1. f(x) ≥ 0 (La probabilidad de ocurrencia del valor es como mínimo 0)

1.2.5. Distribución de probabilidad continúa

La variable aleatoria continua tiene probabilidad cero de tomar exactamente

1. f(x) ≥ 0 Para toda x Є R

Ejemplo: Suponga que el error en la temperatura de reacción, en grados

1.2.5. Distribución conjunta de la muestra

Si el muestreo se realiza con reemplazo la distribución conjunta de la muestra

P(X1, X2,..., Xn) = P [{ε1=X1} ∩ {ε2 = X2} ∩ . . . {εn = Xn}]

Si la variable aleatoria es continua

P(X1,X2,..., Xn) = f(X1) f(X2) . . . f(Xn)

Si el muestreo es sin reemplazo la distribución conjunta de la muestra se

Discreta P(X1, X2 . . . Xn) = ∏ P(εi=Xi / ε1=X1, . . . εi-1=Xi-1,)

Continua f(X1,X2,..., Xn) = ∏ f (Xi/X1, X2 . . . Xi-1)

1.3. Distribución de la población y distribución de la muestra

En inferencia estadística el concepto de distribución empírica de la muestra es de

Siendo Ni el número de observaciones muéstrales menores o iguales a x i, es decir,

El campo de variación de variable la aleatoria (ε ) enumeración de las bolas, está

Si comparamos la función de distribución de la población y la muestra estas no

Calculemos el primer momento muestral (media) tanto en la población, como en la

Media de la población μ =∑ X1*P(X1)

Media de la muestra X = ∑Xi *P (Xi)

1.3.1. Teorema de Glivenko - Cantelli

Llamado también teorema fundamental de la estadística, este teorema afirma:

Estadístico: Cualquier función de los elementos muéstrales recibe el nombre de

La estadística trata con estadísticos muy concretos; los momentos muéstrales