Está en la página 1de 60

DEPARTAMENTO DE MATEMATICAS Y ESTADÍSTICA

UNIVERSIDAD DE NARIÑO

DIPLOMADO EN MÉTODOS ESTADÍSTICOS


APLICADOS A LAS CIENCIAS
SOCIALES Y HUMANAS

ESTADÍSTICA INFERENCIAL

ALVARO BURBANO MONTENEGRO


Msc. Estadística

Pasto 17 de Mayo 2013


INTRODUCCIÓN
En el contexto de la variable cuantitativa, el interés se centra en determinar una característica de
la población, la cual muchas veces debe de ser estudiada a partir de una muestra representativa.
Por su naturaleza esta puede medirse tanto en la población como en la muestra, tomando el
nombre de “parámetro” para la primera y “estadístico” en la segunda, este último con la misión de
estimar su valor en la población.
Por lo anterior la muestra juega un importante papel si queremos establecer que los resultados
obtenidos en ella se aproximen suficientemente a los valores reales de los parámetros, para sacar
conclusiones referentes a la población.
En la práctica, en la mayoría de casos, no tenemos como saber que tan buena es la aproximación
con exactitud y debemos de recurrir al cálculo de probabilidades y resolver con qué grado de
confiabilidad podemos hacer inferencia, que tan cerca o que tan lejos estamos de la realidad. Por
otra parte debemos establecer las condiciones o requisitos que deben de tener los estadísticos
para que el valor que ellos representan sea una tasación correcta del valor del parámetro
correspondiente. Finalmente fijar técnicas y métodos estadísticos adecuados que permita juzgar
hipótesis sobre la característica poblacional que está siendo estudiada.
El módulo 2 del diplomado en métodos estadísticos aplicados a las ciencias sociales y humanas
comprenderá las diferentes técnicas y métodos que son usados para sacar conclusiones de la
población en base a una muestra tomada de ella, haciendo uso del software STATGRAPHICS. Se
evitara por lo tanto la fundamentación matemática de la inferencia, se recurrirá, cuando sea
necesario a definir o recordar algunos conceptos básicos que puedan servir como soporte teórico
de los diferentes tópicos a seguir.

ESTADÍSTICA INFERENCIAL
También llamada Inferencia Estadística, comprende el conjunto de procedimientos en los cuales
interviene la aplicación de modelos de probabilidad y mediante los cuales se realiza una
afirmación de una población con base en una información producido por muestras. Según Mason
et al. (2000:7) La Estadística Inferencial es: “Conjunto de métodos utilizados para saber algo acerca
de una población, basándose en una muestra”.
Las características propias de una población pueden ser cuantificadas por medidas descriptivas
numéricas llamadas parámetros, la Inferencia estadística se ocupa de hacer inferencias acerca de
estos, ya que las poblaciones normalmente son demasiados grandes, para ello se elige una
muestra representativa con el fin de medir dichas características, el valor obtenido en tal
procedimiento sirve para hacer una aproximación al valor real en la población.
La probabilidad y la estadística van de la mano; debido a que a través de la muestra se está
deduciendo la característica poblacional en estudio, se hace necesario reducir la distancia entre los
resultados obtenidos en la muestra y los valores reales en la población. En otras palabras reducir
la probabilidad de error. Los casos de incertidumbre y toma de decisiones son resueltos por la
Estadística Inferencial, por supuesto apoyada por la probabilidad.

CONCEPTOS BÁSICOS
Población
En la investigación científica se define como la totalidad de elementos sobre los cuales recae la
investigación. A cada elemento se le llama unidad estadística, ésta se le observa o se le somete a
una experimentación, estas unidades son medidas pertinentemente.
Muestra
Es toda parte representativa de la población, cuyas características debe reproducir en pequeño lo
más exactamente posible. Para que sea representativa se debe seleccionar empleando el
muestreo, con la finalidad de que los resultados de esta muestra sean válidos para la población de
la que sea obtenido la muestra.

Parámetro
Los valores de las características o medidas que caracterizan una población son conocidas como
parámetros, las cuales son cantidades indeterminadas constantes o fijas respecto a una condición
o situación que caracteriza a un fenómeno en un momento dado que ocurre en una población.
Se suele representar a un parámetro mediante letras griegas, por ejemplo la media poblacional se
representa mediante μ, la varianza poblacional se representa mediante σ 2 y se leen como media
poblacional y varianza poblacional de la variable aleatoria X . En términos prácticos un parámetro
es un valor que representa una característica objeto de estudio al emplear los valores que se
obtiene de una población
Estadístico
Es un valor de las características objeto de estudio el cual es obtenido a partir de los valores
muestrales. A diferencia de los parámetros, los estadísticos son variables aleatorias porque están
sujetos a la fluctuación de la muestra en relación al valor poblacional que se asume es constante.
Por ejemplo, se puede calcular la media aritmética de la muestra, representado a través del
estadístico X̄ , y utilizarlo como estimación de la media aritmética de la población μ . El valor del
estadístico, depende la muestra elegida y cada muestra puede tener una media aritmética
diferente.
DISTRIBUCIÓN DE PROBABILIDAD NORMAL.
Se dice que la variable aleatoria X se distribuye normal con parámetros: d μ y σ si su función

densidad de probabilidad está dada por:


2
− ( x−μ )
1 2 ¿ ¿
para σ >0 ,¿❑ ¿❑ −∞< μ<+ ∞ , Par a tod o x ∈ R
2σ ❑ ❑
f ( X )= e ❑

σ √2 π

Propiedades:
1. Es simétrica respecto a μ
2. La moda y la mediana son ambas iguales a la media
3. Los puntos de inflexión se dan para x=μ−σ y x=μ+ σ
4. Debido a que el área bajo de la curva representa la probabilidad total, esta es igual a 1.
El área debajo de la curva comprendida entre μ−σ y μ+σ es aproximadamente igual a
0,68 del área total; entre μ−2σ y μ+2 σ es aproximadamente igual a 0,95 del área total.
y el μ+3 σ
De igual manera el 98% del área comprendida entre μ−3 σ

DISTRIBUCIONES DE PROBABILIDAD ASOCIADAS A LA NORMAL


Distribución Chi- Cuadrada
Si se tiene una muestra aleatoria de una distribución normal con parámetros μ y σ entonces:
n 2
1 2 ( n−1 ) S
2∑( i
x − X̄ ) =
σ i=1 σ2
Tiene una distribución χ 2con n−1grados de libertad. X̄ Y S2 son variables aleatorias. La
distribución χ 2desempeña un papel importante cuando se desea hacer inferencia respecto a la
varianza σ 2.
Distribución t- de Student
Si se tiene una variable aleatoria normal y estándar y χ 2una variable aleatoria Chi- Cuadrada con
v grados de libertad además si: Z y χ 2son independientes entonces:
Z
T=
χ2
√ v
Tiene una distribución t−d e❑ Student con vgrados de libertad. Es útil cuando se hace inferencia
respecto a la media poblacional o las diferencias de medias poblacionales, para muestras
pequeñas, independientes, cuando no se conoce la o las varianzas poblacionales
Distribución F
Si dos variables aleatorias: χ 21y χ 22con v1 y v 2grados de libertad grados, respectivamente y si
❑ ❑

además ellas son independientes entonces:

χ 21 /v 1
F= 2
χ 2 /v 2

Tiene una distribución F con v1 grados de libertad en el numerador y v 2grados de libertad del
denominador. Es necesaria para comparar varianzas poblacionales normales.

PRUEBAS ESTADÍSTICAS PARA HACER INFERENCIA


Las pruebas estadísticas para hacer inferencias acerca de parámetros, pueden clasificarse en dos
categorías como son Pruebas Paramétricas y Pruebas No Paramétricas, éstas permiten que se
puedan tomar decisiones a través del valor del parámetro y pruebas de hipótesis.
Pruebas no paramétricas
Se puede definir como aquellas que son independientes de la distribución y pueden ser definidas
por lo menos en una escala de intervalo. Relativamente las pruebas no paramétricas requieren
pocos supuestos se pueden aplicar en una escala de intervalo y en ocasiones en escalas nominal.
Son menos eficientes que las paramétricas cuando se cumplen con los requisitos de normalidad y
homoscedasticidad. Canavos (1999)
DISTRIBUCIONES MUESTRALES
Por su naturaleza aleatoria los resultados obtenidos en las muestras de una población son
impredecibles, es de esperar que cualquier estadístico calculado a partir de los datos muestrales,
cambie su valor de una muestra a otra, está es la razón por la cual se debe de estudiar la
distribución de probabilidad de todos los posibles valores del estadístico ya que tal, como lo
advierte Mendenhall et.al. (1994) El estadístico es una función del valor que toma una variable
aleatoria observada en una muestra, por sí mismo es también una variable aleatoria. Por
consiguiente tiene una distribución de probabilidad, un valor esperado y una varianza.
El estudio de tales distribuciones de probabilidad es de gran relevancia en el estudio de la
Estadística Inferencial, porque ellas se harán usando estadísticos muestrales, para hacer
aseveraciones probabilísticas, estimación de los parámetros y pruebas de hipótesis.

Algunos parámetros tienen distribuciones de probabilidad que pueden ser asociadas a la


distribución normal
n términos generales si denominamos al estadístico θ^ y al parámetro θ , la desviación
Para ellos, e
estándar o error estándar del estimado será σ θ^ , por lo tanto el valor estandarizado estará dado
por:
^
θ−θ
Z=
σ ^θ
La siguiente tabla muestra un resumen de los principales estadísticos:

Estadístico Parámetro Valor esperado Desviación estándar Valor estandarizado


θ^ θ E ( θ^ ) σ θ^ Zθ^
σ X̄−μ
X̄ μ μ σ X̄ = Z=
√n σ ^X
pq ^p − p
^p p p
√ n
Z=
σ ^p
( X̄ 1− X̄ 2 )−( μ1−μ 2 )
σ 1 σ 22
2
^
X1−^
X2 μ1−μ 2 μ1−μ 2
√ +
n1 n2
p1 q1 p2 q 2
Z=
σ ^X − ^X
1

( ^p 1−^p2 )−( p1 −p 2 )
2

^p1− ^p2 p1− p2 p1− p2


√ n1
+
n2
Z=
σ ^p − ^p
1 2

Por otra parte es necesario contemplar el cambio que puede ocurrir con la desviación estándar
para poblaciones finitas.
En casos en que n /N ≤ 0.5 se considera que las poblaciones son infinitas, en caso contrario
n /N > 0.5 se considera que la población es finita y el error estándar del estimado se debe del
factor de corrección para poblaciones infinitas √ (N −n)/( N −1)

Població n❑ finitaσ θ^ √ (N −n)/(N −1) Poblaci ó n❑ inf inita σ θ^

Distribución de muestral de la media

Suponga que tenemos una población de 100 estudiantes y que queremos determinar el promedio
de la estatura de los mismos, para ello queremos tomar una muestra de 5, lo cual nos da un total
❑ ❑ posibles muestras, de las cuales habrá la misma cantidad de
de al 10 0 C 5=75287520
estimaciones.
Algunas estimaciones es posible que coincidan con el valor de la media poblacional, sin embargo
para una gran cantidad de estas no será el caso. Esto genera un grado de incertidumbre acerca de
que tan confiable es nuestra estimación, lo que nos lleva a formular preguntas como: ¿Cuál será la
probabilidad de que la media de la muestra se aleje o difiera de la media poblacional en
determinada cantidad?
Como veremos más adelante este tipo de inquietudes lo resolveremos por medio de la
distribución de probabilidad de la normal estándar, por supuesto, no sin antes establecer las
condiciones necesarias para situarnos en tal escenario.
Definición La distribución de todas las estimaciones de la media poblacional μ basadas en todas
las muestras posibles que pueden ser generadas se define como la distribución muestral de la
media.
En la distribución de la media muestral se pueden presentar dos casos:
1. Si la población de partida tiene una distribución normal con parámetros μ y σ entonces la
σ
media muestral se distribuye normal con parámetros μ y
√n
2. Si la población de partida no sigue una distribución normal, la distribución muestral de la
media se parece más o tiende a una normal a medida que crece el tamaño de la muestra,
entonces la media muestral se distribuye normal con los parámetros anteriormente
mencionados. La afirmación anterior encuentra su respaldo teórico en el teorema del
límite central, lo cual nos permite calcular probabilidades asociadas a los valores de las
medias cuando se desconoce la distribución poblacional de la cual provienen, siempre y
cuando el tamaño de la muestra sea lo suficientemente grande. Algunos autores plantean
que el parecido a la normal empieza a ocurrir a partir de tamaños iguales o mayores a
treinta.

σ
A la desviación estándar de la media se le conoce también como el error estándar de la
√n
media, observe que el tamaño de la muestra afecta el error estándar, si se desea tener un error
pequeño se debe de aumentar la muestra.
En el marco de la normal estándar se debe de estandarizar el valor de la media muestral de la
siguiente manera:
X̄−μ X̄ −μ
Z= =
σ ^X σ
√n
Ejemplo 1: El coeficiente intelectual de los alumnos de cierto centro especial tiene una
distribución normal con media de 87,2 y una desviación estándar igual a 17.5. Se extrae una
muestra de 25 alumnos:
a. ¿Cuál es la probabilidad de que la media muestral sea mayor a 85?
b. ¿Qué valor debería tener la media muestral para que la probabilidad de ser hallada en esa
muestra sea máxima de 0,85?
c. ¿Cuál es la probabilidad de que la media de la muestra no difiera de la población real en
no más de 1,8 puntos
Solución: Se debe de calcular la probabilidad de que P( X̄ > 85) para esto debemos de
estandarizar:
X̄−μ 85−μ
P( X̄ > 85)=P

√n
>
σ
√n )
85−87,2
P( X̄ > 85)=P Z>
( 17,5
√ 25 )
Observe que el error estándar de la media es el cociente entre 17,5 y la raíz de 25, tomando un
valor igual a 3,5 entonces:
P( X̄ > 85)=P ( Z >−0,6285 )
Una vez obtenida la estandarización procedemos a encontrar la probabilidad con el uso del
paquete STATGRAPHICS de la siguiente manera:
En la ventana de aplicación buscamos la opción herramientas, damos clip en distribuciones de
probabilidad, se despliega el siguiente cuadro de dialogo:

En el cuadro de la izquierda debemos de asegurarnos que tengan media igual a cero y desviación
estándar igual a 1, si se quiere trabajar con la normal estándar de igual manera en el cuadro de la
derecha como queremos encontrar la probabilidad de que z sea mayor a -0,6285 marcamos el
área límite superior y en el límite superior -0,6285 obteniendo:

Distribución: Normal
Media Desv. Est.
0 1

El siguiente resultado: Área superior -0,6285 = 0,735163, por tanto la probabilidad de que
P( X̄ > 85)=P ( Z >−0,6285 ) =0,735163, los resultados también arrojan una gráfica de la normal
indicando la probabilidad buscada

Hay otra forma para poder acceder a las probabilidades, la cual emplearemos para resolver el
siguiente punto:
¿Qué valor debería tener la media muestral para que la probabilidad de ser hallada en esa muestra
sea como máximo de 0,85?
En la ventana de aplicación buscamos la opción graficar, damos clip en distribuciones de
probabilidad, se despliega el siguiente cuadro de dialogo:
Marcamos donde está la normal y damos aceptar, posteriormente se despliega otro cuadro,
vemos especificar los valores de la media y la desviación estándar, si se desea trabajar con la
normal estándar se debe de colocar en opciones Normal 0 y 1 en caso contrario podemos ingresar
el valor de la media muestral: 87,2 y de la desviación estándar de la muestra: en este caso el valor
de la desviación estándar sobre la raíz cuadrada del tamaño de la muestra, es decir 17.5 dividido
entre cinco o sea 3.5, damos aceptar

Obtenemos el cuadro siguiente asegurándonos de señalar las distribuciones acumuladas inversas,


ya que el propósito es encontrar el valor de la media muestral
Damos clip derecho en opciones de ventana. Se despliega un cuadro de dialogo opciones FDA
inversa, en el colocamos el valor de la probabilidad que en este caso es de 0,85 y damos acepta.:
Como se puede observar el cuadro ofrece hasta cinco posibilidades, los resultados se dan a
continuación.

FDA Inversa
Distribución: Normal

FDA Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5


0,85 91,12752555

El StatAdvisor
Esta ventana encuentra los valores críticos para la Distribución Normal. Pueden especificarse hasta 5 áreas de cola. El
valor crítico se define como el mayor valor para la Normal tal que la probabilidad de no exceder ese valor no excede el
área especificada. Por ejemplo, el resultado indica que, para la primera distribución especificada, 91,12752555 es el valor
más grande tal que la probabilidad de no exceder 91,12752555 es menor o igual a 0,85

¿Cuál es la probabilidad de que la media de la muestra no difiera de la población real en no más de


1,8 puntos?
La probabilidad de la media muestral no difiera de la media de la población en no más de 1,8
puntos está dada por P(−1,8 ≤( X̄−μ)≤ 1,8), observe que la media de la muestra se puede
desviar tanto a la izquierda como a la derecha de la media de la población, la probabilidad que se
debe de hallar debe de ser la región comprendida entre -1,8 y 1,8.
Entonces se debe de estandarizar la desigualdad.

−1,8 ( X̄ −μ) 1,8


P
( σ
√n

σ
√n

σ
√n )
Se halla la probabilidad de que sea menor a 0,5142 y se resta la probabilidad de que sea menor a
-0,5142. Es decir 0,696445-0,303555 que da como resultado 0,39283
Distribución Acumulada
Distribución: Normal
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
-0,5142 0,303555
0,5142 0,696445
El StatAdvisor
Esta ventana evalúa la distribución acumulada de la Distribución Normal. Calculará las áreas de colas para hasta 5 valores críticos de la
distribución. También calculará la probabilidad de densidad o la función de masa. Por ejemplo, el resultado indica que, para la primera
distribución especificada, la probabilidad de obtener un valor menor que -0,5142 es 0,303555. También, la probabilidad de obtener un
valor mayor que -0,5142 es 0,696445. La altura de la función de densidad de probabilidad en -0,5142 es 0,349539.

Probabilidad de media muestral no difiera de la poblacional en más de 1,8


Probabilidad = 0,392891
0,4 Media,Desv. Est.
0,1

0,3
densidad

0,2

0,1

0
-5 -3 -1 1 3 5
x

Distribución de muestral para la proporción


Si se tiene n observaciones de una población binomial con probabilidad de “éxito” py de “fracaso”
q , en este tipo de experimentos binomiales el objetivo es estimar la proporción pde elementos
que cumplen con cierta característica. Si se selecciona una muestra de n elementos y si x
elementos de esa muestra tienen esa característica en cuestión, entonces la proporción muestral
está dada por:
x
^p= q́=1− ^p
n

La distribución de muestral de la proporción de la muestra ^pserá aproximadamente normal a


medida que el tamaño de la muestra es lo suficientemente grande con los parámetros:
pq
L a❑ media: μ= p L a❑ desviaci ó n❑ est á ndar :σ ^p=
√ n
Dond e❑ q=1−p

La proporción muestral estandarizada es:


^p − p ^p − p
Z= =
σ ^p pq
n √
La mayoría de veces no es posible conocer la proporción poblacional, por lo que se hace necesario
trabajar con la población muestral, en ese caso.

ṕ q́ pq
σ ^p=
√ √ n

n
Ejemplo: El Wall Street Journal informa acerca de una encuesta con 313 jóvenes, de 14 a 22 años
de edad hijos de los altos ejecutivos de las corporaciones más importantes de USA. Al pedir que
identificaran el mejor aspecto de ser uno de este grupo privilegiado, el 55% mencionó ventajas
materiales y financieras. Describir la distribución de muestreo. (Tomado de Estadística para
Administradores de William Mendenhall)
ṕ q́ 0,55× 0,45
σ ^p=
√ √
n

313
=0,028

Supongamos ahora que la proporción de jóvenes en la población es realmente igual a 0,5¿Cuál es


la probabilidad de observar una proporción muestral igual o mayor que el valor observado 0,55?
Solución: Para evaluar la probabilidad se debe de estandarizar de la siguiente manera:
p ( X ≥0,55 )

ṕ− p 0,55−0,5
Z= = =1,79
pq 0,5 ×0,5
√ √
n 313

Se busca entonces p ( z>1,79 ) ya sea en herramientas o en graficar en la ventana de aplicación tal


como se hizo para el anterior ejercicio. Se tiene como resultado:

Media Desv. Est.


0 1

Área superior 1,79 = 0,0367268


La probabilidad de observar una proporción muestral igual o mayor que el valor observado 0,55 es
de 0,0367268
Distribución de muestreo de la diferencia de medias muestrales
Suponga que se seleccionaron dos muestras aleatorias independientes n1 y n2 de dos poblaciones
❑ ❑ ❑ ❑
con parámetros ( μ1 y σ 1 ) y ( μ2 y σ 2) respectivamente. Entonces, la distribución de muestreo
de la diferencia de sus medias muestrales tendrá los siguientes parámetros:
σ 21 σ 22
μ( X̄ − X̄ ) =μ1−μ2σ
1 2
1 2

( X̄ − X̄ )= +
n1 n2

La distribución de muestreo de X̄ 1 − X̄ 2será aproximadamente normal si n1 y n2 son grandes


La diferencia de medias estandarizada es:

( X̄ 1− X̄ 2)−(μ1 −μ 2) ( X̄ 1− X̄ 2 )−( μ 1−μ2)


Z= =
σ ( X̄ −X̄ ) σ 21 σ 22
1 2

+
n1 n2 √
Ejemplo: Una compañía quiere muestrear y comparar el promedio de días de incapacidad por
enfermedad, por año para dos clases de empleados: los que tienen menos de cinco años de
servicio y los que tienen más de diez años, se toman muestras de 100 por cada grupo y se obtiene
las desviaciones estándar de 8.2 y 5.3 días respectivamente.
¿Cuál es la probabilidad de que la diferencia de medias de la muestra difiera de la diferencia en los
promedios poblacionales menos de un día?
Solución: Se plantea la siguiente desigualdad:

P(−1<( X̄ 1− X̄ 2)−( μ1−μ 2)<1)


Estandarizando tenemos:

( X̄ 1− X̄ 2)−(μ1−μ 2) 1

[√ ]
−1
P < <
σ 21 σ 22 σ 21 σ 22 σ 21 σ 22
+
n1 n2 √ +
n1 n 2 √ +
n 1 n2

Remplazando los valores tenemos:

−1 1
P
[√ 2
8. 2 5.3
+
100 100
2
<Z <

√ +
2

100 100
]
8. 2 5.32 P [−1.06<Z <1.06 ] =0.710857

Esta probabilidad se puede hallar de manera manual o acudiendo a las distribuciones de


probabilidad del STATGRAPHICS
¿Cuál es la probabilidad de que la diferencia de medias de la muestra difiera de la diferencia en los
promedios poblacionales por más de un día? La respuesta se tiene buscando el complemento
Siendo la respuesta 1-0.710857= 0.289914
Distribución de muestreo de la diferencia de dos proporciones muestrales
Suponga que se seleccionaron dos muestras aleatorias independientes n1 y n2 de dos poblaciones
binomiales con parámetros p1 y p2 respectivamente. Entonces, la distribución de muestreo de dos
proporciones muestrales tendrá los siguientes parámetros:
x1 x2 p q p q
μ(^p −^p )= p1− p2 ^p1− ^p2=
1 2
− σ ( ^p −^p )= 1 1 + 2 2
n1 n2 n1 n2
La distribución de muestreo de ^p1− ^p2será aproximadamente normal si n1 y n2 son grandes
1 2

La diferencia de proporciones estandarizada es:

( ^p1− ^p2 )−( p 1−p 2) ( ^p1− ^p 2)−( p1− p2 )


Z= =
σ( ^p − ^p ) p1 q1 p2 q2
1 2

n1
+
√ n2

Ejemplo: (Tomado de Mendenhall) El Wall Street Journal informa sobre una encuesta con 250
gerentes de compras, la cual pretende indicar un repunte en la economía. De los compradores que
participaron, el 25% reportó más pedidos nuevos en enero, comparado con el 19% de diciembre.
¿Indica esta diferencia en proporciones muestrales que hay diferencia real entre los meses de
diciembre y enero? Para aclarar la cuestión, obtenga la probabilidad de que las proporciones
muestrales puedan diferir en 6% o más cuando en realidad no hubo cambio alguno en las
proporciones poblacionales de diciembre a enero.
Solución: Llamamos p1 la proporción en enero y p2 la proporción en diciembre. Si en realidad no
hubo cambio alguno entonces p1− p2=0, como en realidad no conocemos estas proporciones,
debemos de trabajar con las obtenidas en las muestras:

ṕ 1 q́ 1 ṕ 2 q́ 2 0,25× 0,75 0,19 × 0,81 σ


σ ( p − p )=
1

Debemos de encontrar:
2
√ n
+
n
σ ( p − p )=
1 2

250
+
250
( p − p )=0,037
1 2

P [−0.06 ≤( ṕ1− ṕ2 )−( p 1−p 2)≤ 0.06 ]

Estandarizamos:

−0.06 ( ṕ1− ṕ 2)−( p1− p2 ) 0.06 0.06


P
[ σ (p − p )
1 2

σ (p − p )

1
σ( p −p )
2
P
−0.06
0,037
≤Z≤
0,037 1 2
][
P [−1,62≤ Z ≤1,62 ] ]
Una vez planteada la probabilidad en términos de la Z, procedemos en la ventana de aplicación, en
la opción de herramientas, damos clip en distribuciones en el muestreo; nos aseguramos que la
media sea cero y la desviación estándar o típica sea 1, damos aceptar y se despliega el cuadro de
opciones; señalamos el límite inferior en este caso es de menos 1.62 y el límite superior que es de
1,62, señalamos el área fuera de límites y damos aceptar
Se obtiene la siguiente gráfica y el siguiente resumen:

Distribuciones en el muestreo
Distribución: Normal
Media Desv. Est.
0 1

Área fuera -1,62 y 1,62 = 0,105232

Está probabilidad indica que si las proporciones de los gerentes que reportan un incremento en las
compras fueran iguales en enero y diciembre, la probabilidad de que las proporciones de las
muestras puedan diferir en 0.06 o más es de 0,105232

Distribución de muestreo para la desviación estándar de la muestra


La distribución χ 2desempeña un papel importante cuando se desea hacer inferencia respecto a la
varianza σ 2. Por lo tanto cuando tenemos la desviación estándar de la muestra, para encontrar
probabilidades referentes a ella, debemos de expresar la desigualdad de la probabilidad en
términos de una Chi- cuadrada. Recordemos que:
2( n−1 ) S 2
χ=
σ2
Tiene una distribución χ 2con n−1grados de libertad.
Para aclarar lo anterior veamos el siguiente ejemplo
Ejemplo 2: Se supone que el contenido de onzas que vacía una maquina embotelladora tiene una
distribución normal con σ 2=1. Suponga que se desea obtener una muestra aleatoria de 10
botellas y medir el contenido de cada botella. Si se utilizan estas 10 observaciones para calcular S2,
podría ser útil especificar un intervalo de valores que incluyeran a S2con una alta probabilidad.
❑ ❑
Encuentre los números b 1 y b 2tales que:
P(b 1 ≤ S 2 ≤ b2 )=0,90

Solución: Debemos expresar la anterior desigualdad en términos de una Ji-cuadrada.

(n−1) b1 ( n−1)S 2 ( n−1)b 2


P(b 1 ≤ S 2 ≤ b2 )=P ( σ2

σ2

σ2 )
P(b 1 ≤ S 2 ≤ b2 )=P ( a 1 ≤ χ 2 ≤ a2 ) =0,90

Debido a queσ 2=1tenemos que:


a 1=(n−1)b 1❑ =9 b1a 2=(n−1)b 2❑=9 b2

a1 a2
b 1= b 2=
9 9
Nos situamos en la ventana de aplicación y buscamos la opción de distribuciones de probabilidad
y damos clip en la chi- cuadrada, buscamos en opciones de tabla o tabulares y damos clip en la
opción de distribuciones acumuladas inversas, en opciones de ventana colocamos la cantidad de
0,95 en la parte de abajo 0,05. En opciones de análisis entramos los grados de libertad pertinentes.
Obtenemos los siguientes resultados:
Función de Distribución Acumulada Inversa
Distribución: Chi-Cuadrada

FDA Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5


0,95 16,919
0,05 3,32511

El StatAdvisor
Esta ventana encuentra los valores críticos para la Distribución Chi-Cuadrada. Pueden especificarse hasta 5 áreas de cola. El valor
crítico se define como el mayor valor para la Chi-Cuadrada tal que la probabilidad de no exceder ese valor no excede el área
especificada. Por ejemplo, el resultado indica que, para la primera distribución especificada, 16,919 es el valor más grande tal que la
probabilidad de no exceder 16,919 es menor o igual a 0,95.

❑ ❑
Por lo que los números a 1 y a2son 3,32511 y 16,919 respectivamente. Remplazando obtenemos
❑ ❑
los valores de b 1 y b 2iguales a 0,369 y 1,880 respectivamente
Probabilidad entre a1 y a2
Probabilidad = 0,900006
0,12 G. L.
9
0,1

0,08
densidad

0,06

0,04

0,02

0
0 3 6 9 12 15 18 21 24 27 30 33 36 39 42
x

La anterior gráfica muestra el área sombreada entre los valores de 3,32511 y 16,919 que
corresponde a una probabilidad de 0,90 aproximadamente.

ESTIMACIÓN DE PARÁMETROS

Como ya lo habíamos anotado, las características de las poblaciones se describen mediante


valores numéricos denominados parámetros, el objetivo de las investigaciones es hacer inferencia
estadística respecto a uno o más parámetros poblacionales. Esta tarea es realizada a partir de las
estadísticas obtenidas en la muestra y a los valores obtenidos en estas se les denominan
estimadores. Una estimación es un valor especifico de un estadístico obtenido desde una muestra,
a partir de estos valores podemos realizar estimaciones puntuales o estimaciones por intervalo.
La estimación puntual, es un solo valor que se utiliza para estimar, avaluar o tasar un parámetro
descocido.
Es posible obtener muchos estimadores para un mismo parámetro poblacional, este hecho
conduce a formular la pregunta: ¿Cuál de ellos escoger? La lógica nos dice que debemos escoger el
mejor de ellos, pero ¿Cómo saber cuál es el mejor? Un buen estimador debe de cumplir con
ciertas propiedades que le permitan estar más cerca del valor real del parámetro objetivo. Estas
propiedades se tratan a continuación:

PROPIEDADES DE UN BUEN ESTIMADOR

Insesgado: La distribución muestral del estimador se centra alrededor del parámetro de la


población o parámetro objetivo θ el cual es estimado por θ^ . Se desea que el valor esperado del
estimador sea el parámetro es decir:
^
E( θ)=θ
Los estimadores que cumplen con la anterior condición se denominan estimadores insesgados en
caso contrario se dice que el estimador es sesgado. El sesgo de un estimador puntual está dado
^
por Sesgo=E( θ)−θ .
Varianza mínima: Si hay más de un estimador para un parámetro objetivo, el mejor estimador
será el que tenga varianza mínima ya que aumentaría de esta forma la probabilidad de que los
estimadores queden cerca del valor real del parámetro.
Eficiencia: Como consecuencia de la anterior propiedad, un estimador es el más eficiente cuando
tiene un error estándar más pequeños de todos los estimadores insesgados posibles.
Consistencia: Un estimador es consistente si se aproxima al parámetro poblacional con
probabilidad igual a uno, a medida que el tamaño de la muestra tiende al infinito

ESTIMADORES PUNTUALES INSESGADOS MÁS COMUNES


PARÁMETR
ESTIMADOR
O TAMAÑO DE MUESTRA ^
E( θ)=θ σ θ2^
θ θ^
σ2
μ n X̄ μ
n
x pq
p n ^p= p
n n
σ 1 σ 22
2
μ1−μ 2 n1❑ y❑ n 2 X̄ 1 − X̄ 2 μ1−μ 2 +
n 1 n2
p1q1 p2q2
p1− p2 n1❑ y❑ n 2 ^p1− ^p2 p1− p2 +
n1 n2

ESTIMACIÓN POR INTERVALOS DE CONFIANZA

El estimador por intervalo utiliza los datos obtenidos en la muestra para calcular el intervalo
dentro del cual debe de estar el parámetro objetivo, tratando que este sea lo más estrecho
posible. Debido a que los valores calculados dependen de la muestra, es posible que el parámetro
objetivo no esté dentro del intervalo. Lo anterior nos lleva a que tengamos que construir un
estimador por intervalo que genere un espaciado lo más angosto posible y que garantice que el
parámetro objetivo se localice dentro de él.
Un método empleado en la construcción de intervalos se denomina método del pivote, el cual es
función de las mediciones de la muestra y el parámetro es la única cantidad desconocida.
Se debe de tener una distribución de probabilidad que no dependa del parámetro. Si conocemos
la distribución de probabilidad de la cantidad pivote se puede utilizar la siguiente lógica
Encontrar un intervalo con la probabilidad de que el parámetro objetivo se encuentre dentro de él
sea igual 1−α , en consecuencia α será la probabilidad de no estar en ese intervalo. Si nos
situamos en el campo de la normal estándar, el problema se reduce a seleccionar dos valores
extremos en esa distribución tal que:

P −Z α ≤ Zθ^ ≤ Z α =1−α
[ 2 2 ]
Observe que:
^
θ−θ
Zθ^ =
σ ^θ
Remplazando este valor en la desigualdad se tiene:

^
θ−θ
[
P −Z α ≤
2
σ θ^
≤ Z α =1−α
2
]
^
P −Z α σ θ^ ≤ θ−θ ≤ Z α σ ^θ =1−α
[ 2 2 ]
Restandoθ^ y multiplicando por -1 y cambiando el orden de la desigualdad tenemos:

^
P θ−Z ^
α σ ^θ ≤ θ ≤ θ+ Z α σ ^θ =1−α
[ 2 2 ]
Obtenemos el siguiente intervalo:

θ^ ± Z α σ ^θ
2
A la probabilidad 1−α o probabilidad de que un intervalo contenga el parámetro objetivo, se le
conoce como coeficiente de confianza, mientras que al valor α se conoce como nivel de confianza
de igual manera, la cantidad Z α σ θ^ se le conoce como margen de error o cota para el error de
2
estimación, o error máximo admisible. Como esta última es función del error estándar del
estimado, si queremos que este sea pequeño debemos de aumentar el tamaño de la muestra.
Cabe anotar que en algunas ocasiones se hace necesario encontrar intervalos unilaterales, para
ese propósito se utiliza los límites inferior o superior según sea el caso.
La siguiente tabla muestra los supuestos y los intervalos de confianza para algunos de los
parámetros más conocidos.

FORMULAS PARA INTERVALOS DE CONFIANZA


PARÁMETRO SUPUESTOS 100(1−α .) INTERVALO DE
CONFIANZA
n grande, σ 2 conocida o normalidad, σ 2conocida σ
μ X ± Z α /2 ⋅
√n
n grande, σ 2 desconocida S
μ X ± Z α /2 ⋅
√n
n pequeña, σ 2 desconocida, normalidad S
μ X ± t α /2 , n−1 ⋅
√n
pq
p
Experimento binomial, n grande

Normalidad (n−1) S (n−1)S2


2

^p ± Z α / 2 ⋅
n

σ2 ( ,
χ 2α / 2, n−1 χ 21−α / 2 ,n−1 )
n1 , n2 σ 12❑ σ 22 σ 21 σ 22
μ1−μ 2 ❑
grandes, independientes

normalidad, σ 12❑ σ 22 conocidas


n1 , n2 Grandes, independientes σ 2
σ 2
conocidas, o
X 1 −X 2 ± Z α / 2 ⋅ +
n1 n2√
S21 S 22
μ1−μ 2 ❑

n1 , n2
1❑ 2

σ 12❑ σ 22
desconocidas.
X 1 −X 2 ± Z α / 2 ⋅ +
n1 n2√ 1 1

μ1−μ 2

iguales
pequeñas, independientes desconocidas pero X 1 −X 2 ±t α / 2 ,n +n −2 ⋅S p
1 2

(n1−1) S +( n2−1)S22
2
√ +
n1 n 2

S p=
√ 1
n 1+ n2−2
n1 , n2 σ 12❑ σ 22 S21 S 22

diferentes
pequeñas, independientes desconocidas, pero
X 1 −X 2 ±t α / 2 ,V ⋅

S S22
2
√ 2
+
n1 n2

μ1−μ 2
V=
( 1
+
n 1 n2 )
2 2
S 21 S22
( ) ( )
n1
+
n2
n1−1 n2−1
Normalidad, muestras pareadas n pequeña S
μd =μ1−μ 2 d ±t α /2 ,n−1 d
√n
p q p q
p1− p2
Experimento binomial, muestras grandes independencia


^p1− ^p2 ± Z α / 2 ⋅ 1 1 + 2 2
n1 n2

Las siguientes tablas muestran un resumen de los valores de para la construcción de intervalos
bilaterales y unilaterales:

1−α α Z α /2 Límite inferior Límite superior


0.90 0.10 1.64 ^
θ−1.64 σ θ^ ^
θ+1.64 σ θ^
5
0.95 0.05 1.96 ^
θ−1.96 σ θ^ ^
θ+1.96 σ ^θ
0.99 0.01 2.58 ^
θ−2.58 σ^ ^
θ+2.58 σ^
θ θ

La siguiente tabla son los límites de confianza unilaterales

1−α α Z α /2 Límite inferior Límite superior


0.90 0.10 1.28 ^
θ−1.28 σ θ^ ^
θ+1.28 σ θ^
0.95 0.05 1.64 ^θ−1.645 σ ^ ^θ+1.645 σ ^
θ θ
5
0.99 0.01 2.33 ^
θ−2.33 σ θ^ ^
θ+2.33 σ ^θ

Observe que en algunas ocasiones, se hace necesario utilizar otras distribuciones como la t- de
Student y la Chi-cuadrada. La construcción de estos intervalos sigue la misma lógica utilizada para
construir intervalos utilizando la normal estándar. La construcción del intervalo utilizando la chi-
cuadrada se dará a conocer cuando se trate los intervalos para la desviación estándar

Error Máximo Admisible: También conocido como cota de error, se conoce a la cantidad Z α /2 ⋅σ θ́
se puede interpretar como la mayor diferencia entre el estimador y el parámetro objetivo. Se
puede observar que es el error máximo admisible la cantidad que se suma o sustrae del estimado
para obtener el intervalo de confianza.

INTERVALO DE CONFIANZA DE UNA MUESTRA GRANDE PARA LA MEDIA POBLACIONAL


Se debe de contemplar dos casos: primero cuando se conoce la desviación estándar poblacional,
Segundo cuando no se conoce la desviación estándar poblacional. En este caso se puede usar la
desviación estándar de la muestra en la fórmula del intervalo de confianza, obteniendo una buena
aproximación cuando el tamaño de la muestra es suficientemente grande. El supuesto de
normalidad es satisfecho por él teorema del límite central.
El intervalo de confianza está dado por:
σ
X ± Z α /2 ⋅
√n
Donde X̄ es el valor de la media de la muestra, σ el valor de la desviación estándar poblacional. En
caso de no conocer este valor podemos utilizar valor de la desviación estándar de la muestra SEl
valor de Z α /2 ubica un valor de α /2a la derecha.

Ejemplo 3: Se registraron los tiempos empleados por 64 clientes seleccionados al azar para hacer
transacciones en un cajero electrónico. La media y la varianza obtenidas fueron de 33 segundos y
256 respectivamente. Estime el promedio real μ, del tiempo utilizado por las personas en el
cajero, con un coeficiente de confianza de 90%.
Solución: En este caso el parámetro objetivo es μmientras que X̄ =3 3❑ ,❑ σ =√ 256=16 n=64 ,
la desviación estándar poblacional se desconoce por lo que utilizamos el valor de Scomo su valor
estimado. Entonces el intervalo de confianza, con un nivel de confianza del 90% es:

S
X̄ ± Z 0,05
√n
Vamos a construir un intervalo de confianza bilateral, remplazando los valores correspondientes y
obtenemos:
16
33 ±1.645 33 ±3.29
√ 64
El promedio real del tiempo utilizado por las personas en un cajero electrónico con un coeficiente
de confianza del 90% está comprendido entre:

[ 29.71 ,❑ 36.29 ]
Observe que el error máximo admisible es de 3,26; si se desea reducir este error se debe de
aumentar el tamaño de la muestra. Supongamos que queremos reducir el error a 1 entonces:
σ 16
Z α /2 ⋅
=1.645
√n √n
16 1.645 ×16
1=1.645 √ n=
√n 1
n=¿

INTERVALO DE CONFIANZA DE UNA MUESTRA PEQUEÑA PARA LA MEDIA POBLACIONAL


No se conoce la desviación estándar de la población, pero se puede estimar por medio de la
desviación estándar de la muestra, se supone que la población de la cual se extrajo la muestra es
normal. Este supuesto es fácil de verificar utilizando la gráfica de probabilidad normal, en general
de pequeñas a moderadas desviaciones de la normal no son motivo de preocupación.
La gráfica de probabilidad normal está presente en cualquier software de estadística. La gráfica se
obtiene ordenando las diferentes observaciones que han sido ordenadas de menor a mayor las
cuales se grafican entonces con sus respectivas frecuencias observadas acumuladas.
El intervalo se construye con la ayuda de la distribución t de –Student

S
X ± t α /2 , n−1 ⋅
√n
Donde t α / 2 ,n−1es él valor de t con n-1 grados de libertad.
Ejemplo 4: El departamento de recursos humanos de cierta empresa da lugar a un proceso de
selección de personal para cubrir las vacantes de un puesto administrativo en diferentes sedes. Se
desea conocer el promedio de los puntajes que puedan tener los aspirantes a dicho cargo. Para
ello se selecciona 10 aspirantes y se les somete a un test obteniendo los siguientes resultados:

Aspirante 1 2 3 4 5 6 7 8 9 10
Puntaje 83,2 99,1 75,5 95,6 90,3 89,6 80,2 93,7 97,9 99,0

Mediante un intervalo de confianza estime el puntaje medio de los aspirantes, con un nivel de
confianza del 5%
Solución:
Se trata de muestras pequeñas, con varianza desconocida, por lo tanto se debe de utilizar la t- de
student
Implementación en el STATGRAPHICS:
Ingresamos los datos en la ventana de aplicación en una sola columna, podemos nombrar la
columna con el nombre de puntaje y verificamos que los datos sean numéricos. Esto se hace
dando clip derecho y seleccionando la opción de modificar columna, damos aceptar., tal como se
puede observar en el siguiente cuadro

Una vez seleccionado el análisis de una variable despliega el siguiente cuadro:


En el cuadro de datos ingresamos el nombre de la variable en este caso puntaje y damos aceptar,
enseguida se genera un cuadro de tablas y gráficos, señalamos el resumen estadístico con el fin de
determinar si se cumple con los supuestos de normalidad, esto se puede hacer con el gráfico de
probabilidad normal, gráfico de cajas y bigotes etc. En este caso escogemos el resumen estadístico
puesto que es más preciso. Para el intervalo de confianza señalamos la opción correspondiente.

Resumen Estadístico para Puntaje


Recuento 10
Promedio 90,41
Desviación Estándar 8,31577
Coeficiente de Variación 9,19785%
Mínimo 75,5
Máximo 99,1
Rango 23,6
Sesgo Estandarizado -0,894448
Curtosis Estandarizada -0,499283

El StatAdvisor
Esta tabla muestra los estadísticos de resumen para Puntaje. Incluye medidas de tendencia central, medidas de
variabilidad y medidas de forma. De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las
cuales pueden utilizarse para determinar si la muestra proviene de una distribución normal. Valores de estos estadísticos
fuera del rango de -2 a +2 indican desviaciones significativas de la normalidad, lo que tendería a invalidar cualquier
prueba estadística con referencia a la desviación estándar. En este caso, el valor del sesgo estandarizado se encuentra
dentro del rango esperado para datos provenientes una distribución normal. El valor de curtosis estandarizada se
encuentra dentro del rango esperado para datos provenientes de una distribución normal.

Se chequea la normalidad con el sesgo estandarizado y la curtosis estandarizada. Tal como lo


sugiere el StatAdvisor los datos son normales.
Intervalos de Confianza para Puntaje
Intervalos de confianza del 95,0% para la media: 90,41 +/- 5,94876 [84,4612; 96,3588]
Intervalos de confianza del 95,0% para la desviación estándar: [5,71988; 15,1814]

El StatAdvisor
Este panel muestra los intervalos de confianza del 95,0% para la media y la desviación estándar de Puntaje. La
interpretación clásica de estos intervalos es que, en muestreos repetidos, estos intervalos contendrán la media verdadera o
la desviación estándar verdadera de la población de la que fueron extraídas las muestras, el 95,0% de las veces. En
términos prácticos, puede establecerse con 95,0% de confianza, que la media verdadera de Puntaje se encuentra en algún
lugar entre 84,4612 y 96,3588, en tanto que la desviación estándar verdadera está en algún lugar entre 5,71988 y 15,1814.

Ambos intervalos asumen que la población de la cual proviene la muestra puede representarse por la distribución normal.
Mientras que el intervalo de confianza para la media es bastante robusto y no muy sensible a violaciones de este supuesto,
los intervalos de confianza para la desviación estándar son muy sensibles. Si los datos no provienen de una distribución
normal, el intervalo para la desviación estándar puede ser incorrecto. Para verificar si los datos provienen de una
distribución normal, seleccione Resumen Estadístico de la lista de Opciones Tabulares, o escoja Gráfica de Probabilidad
Normal de la lista de Opciones Gráficas.
El error máximo admisible es de 5,94876 y el intervalo para la media es de 84,4612- 15,1814.
Observe que no tuvimos necesidad de especificar que necesitábamos la t- de student, el programa
tomo la decisión haciendo el intervalo con la distribución correcta. Por defecto también sale el
intervalo de confianza para la desviación estándar, el programa construye el intervalo de confianza
utilizando la distribución Chi- Cuadrada. Si damos clip derecho aparece el siguiente cuadro de
dialogo y podemos encontrar tipos de intervalos con diferentes niveles de confianza.

INTERVALO DE CONFIANZA DE UNA MUESTRA GRANDE PARA LA PROPORCIÓN POBLACIONAL


La construcción de un intervalo para la proporción poblacional supone el empleo de muestras
grandes, él intervalo es aproximado porque se debe de recurrir a él valor de la proporción en la
muestra para el cálculo de σ ^p El intervalo se construirá de la siguiente forma:
pq
^p ± Z α / 2 ⋅
√ n
Ejemplo 5: En una encuesta aplicada a consumidores de un producto se obtuvo que el 80%
estuvieran satisfechos con la calidad. Se quiere actualizar esta información, por lo que se realiza
una encuesta que tenga un nivel de confianza del 0.95. Se pide determinar el número de
encuestas necesario para que el error máximo admisible de la proporción sea igual al 5%
Solución:
Llamamos al error máximo ε =5 %
Z α /2 σ^ ^p =5 %
Conocemos el valor de ^p=0.8 q^ =0.2y el valor de Z α /2 =1.96 sustituyendo estos valores en la

anterior ecuación tenemos:


0.8 × 0.2
1.96
√ n
=0.05
Por lo tanto:
0.8 × 0.2 n=245.86
1.9 62
¿¿

En consecuencia se debe de realizar 246 encuestas

Ejemplo 6: Una fábrica de enlatados tendría que parar la producción si el 7% de la producción


diaria es defectuosa. De la producción diaria se toma una muestra de 550 artículos y se encuentra
que 37 de ellos tienen defectos. Encuentre un límite de confianza y determine si se debe parar la
producción. Utilice un nivel de confianza de 0.90
Solución: Encontramos
x 37
^p= = =0.067q^ =1− ^p =1−0.067=0.933
n 500
Puesto que ^p=0.067 es menor al parámetro poblacional, debemos hallar un límite superior:

^p−1.28 × σ ^p0.067+1.28 0.067 ×0.933 0.067+ 0.013=0.08



550

El límite superior indica que el parámetro poblacional puede tomar un valor superior al 7%, por lo
tanto es recomendable que pare la producción.
INTERVALO DE CONFIANZA DE MUESTRAS GRANDES PARA LA DIFERENCIA DE MEDIAS
POBLACIONALES.
Se presentan dos casos: Se conocen las desviaciones estándar poblacionales y cuando no se
conocen las desviaciones estándar poblacionales. En este caso se puede usar las desviaciones
estándar de las muestras en la fórmula del intervalo de confianza,
σ 21 σ 22

X 1 −X 2 ± Z α / 2 ⋅ +
n1 n2

Supuestos: Las dos muestras son aleatorias y son escogidas de forma independiente de las
poblaciones objetivo. Por lo tanto la disposición de una muestra no afecta la disposición de la otra
muestra.

Los tamaños de las muestras deben de ser lo suficientemente grande para poder aplicar el
teorema del límite central.

Ejemplo 7: Se requiere estudiar la temperatura de deflexión bajo la carga de dos formulaciones


diferentes para un plástico ABS. Se obtiene los siguientes resultados:

Formulació n❑ 1 X̄ 1 =193S1=7.23n1 =128 Formulaci ó n❑2 X̄ 2 =180S2=5.1


n2 =100

Construya un intervalo de confianza con α =0.05 para la diferencia de medias poblacional


Solución: Como el tamaño de las muestras son mayores que 30 y aplicando el teorema del límite
central, además podemos estimar las desviaciones estándar poblacionales con las desviaciones de
las muestras podemos obtener un intervalo de confianza de la siguiente forma:
S21 S 22
X 1 −X 2 ± Z α / 2 ⋅
El valor de Z α /2 =1.96para α =0.05 remplazando estos valores tenemos:
√ +
n1 n2

7.2 32 5.12 13 ±(1.96 ×0.8176)=13 ± 1.60[ 11. 4 ❑ ,❑ 14.6 ]


193−180± 1.96 ⋅ +
128 100 √
Con un nivel de confianza α =0.05 el parámetro poblacional para la diferencia De las
formulaciones está comprendida entre 11.4 y 14.6 grados centígrados, de acuerdo al intervalo la
segunda formulación produce una temperatura más alta.

INTERVALO DE CONFIANZA DE MUESTRAS PEQUEÑAS PARA LA DIFERENCIA DE MEDIAS


POBLACIONALES.
Cuando se tienen muestras menores de 30 se considera que se tienen muestras pequeñas. Se
presentan dos casos: en ambos no se conocen las desviaciones estándar poblacionales, pero se
pueden estimar a partir de la muestra. El primero supone las desviaciones estándar poblacionales
iguales, mientras que para el segundo se supone que las desviaciones estándar son diferentes.
Cuando se supone que las desviaciones estándar poblacionales son iguales se debe de encontrar
una desviación conjunta para las dos poblaciones, a la cual denominaremos S p y utilizamos:
1 1 (n1−1) S21 +( n2−1)S22
X 1 −X 2 ±t α / 2 ,n +n −2 ⋅S p
1 2
√ + Donde . S p=
n1 n 2 n 1+ n2−2 √
Para el segundo caso tenemos que encontrar los grados de libertad de la siguiente forma:
2
S 21 S22

V=
( +
n 1 n2 )
2 2
S 21 S22
( ) ( )
n1
+
n2
n1−1 n2−1

S21 S 22
El intervalo está dado por: X 1 −X 2 ±t α / 2 ,V ⋅
√ +
n1 n2
Además se debe de escoger las muestras de forma independiente de dos poblaciones, se supone
que las muestras se seleccionaron de poblaciones relativamente normales.
Ejemplo 8: Un industrial que produce cereal inflado ensaya dos procedimientos de mantenimiento
preventivo con máquinas utilizadas para el procedimiento. Lo que se mide es el tiempo en
terminar el proceso de inflado. A continuación se da los resultados obtenidos en minutos

Maquina 1 Maquina 2
X̄ 1 =62 . 4 X̄ 2 =55 . 8
S 1 =3. 71 S 2 =4 . 22
n1 =18 n2 =20
Encuentre el intervalo de confianza para la diferencia de medias con un nivel de significancia de
0.05

Solución: Verificamos los supuestos según la tabla para intervalos, vemos que se trata de nuestras
pequeñas, no se conoce las varianzas pero se las pueden usar las desviaciones muestrales para
estimarlas, por lo tanto se debe de utilizar la distribución t de Student. No sabemos si las muestras
de la población son iguales o no, para esto se hace necesario utilizar la prueba F como lo veremos
en la sección correspondiente a prueba de hipótesis, por el momento asumiremos varianzas
iguales. El intervalo de confianza para la diferencia de medias se construye de la siguiente manera.
1 1 (n1−1) S21 +( n2−1)S22
X 1 −X 2 ±t α / 2 ,n +n −2 ⋅S p
1 2
√ + donde : S p=
n1 n 2 √
n 1+ n2−2

Buscamos en la tabla el valor de t α / 2 ,n +n −2 siendo:n1 +n 2−2=18+20−2=36 grados de libertad


1 2

y α /2=0.025 , de esta manera el valor encontrado es:t 0.025,36=2.0281


(18−1)3.7 12 +(20−1) 4.222 S =3.987
S p=
√ 18+20−2
p

Por lo tanto remplazando los valores el intervalo será:

1 1
(62.4−55.8)± 2.0281 ×3.987
√ + 6.6 ± 2.627[ 3.97 3 , 9.227 ]
18 20
❑ ❑

Entonces con un nivel de confianza α =0.05 , el parámetro poblacional para la diferencia de


medias está comprendido entre 3.973 y 9.227 minutos. Observe que el intervalo encontrado
indica que la maquina No. Es más demorada que la maquina No.2. En caso de que aparezca el cero
en el intervalo, este se constituye en un claro indicio de que las maquinas producen resultados
iguales.
En el caso de no asumir varianzas iguales, debemos de aplicar la formula correspondiente la cual
aparece en la tabla para intervalos de confianza. En esta cambia la forma de obtener los grados de
libertad y el valor de σ X̄ − X̄ 1 2

2
S S 22
2 2
3.7 12 4.2 22
v=
( ) (1
+
n1 n2 ) =
18
+
20
=
2.74
=29.78 ≅ 30
S 2 2
S2 2
3.7 1 2
4.2 2 2 0.045+0.047
( ) ( ) ( )( )
n1
+
1 2
n2 18
+
20
n1 −1 n2−1 17 19

El intervalo de confianza se obtiene con t 0.025,30=2.0423 . Remplazando los valores tenemos:


S21 S 22 3.7 12 4.2 22

X 1 −X 2 ±t α / 2 ,V ⋅ +
n1 n2
6.6 ±

2.0423
18
+
20
[ 3.97 3❑ ,❑ 9.227 ]
❑ ❑
=6.6 ±2.627 E l ∫ e rval o ser á :

Resultado que coincide con el obtenido anteriormente


Ejemplo: La analista de bolsa variable de la comisionista de bolsa serfinco, señala que los
accionistas de la cementera Argos hicieron una buena inversión este año,  no solo por el
dividendo, sino por el potencial de valorización que tiene este título. En efecto se espera que para
este año el precio objetivo llegue a los $10.000. Se ha hecho un seguimiento durante los dos
últimos años los resultados se muestran a continuación:

Año 0,99 1,2 1,67 1,46 0,9 1,77 1,65 1,60 1,5 1,78 1,66 1,35
2012 1 8 9

Año 0,89 1,1 1,69 1,78 1,0 1,46 1,54 1,75 1,6 1,70 1,68 1,57
2013 7 6 7

Encuentre un intervalo de confianza para la diferencia de promedios real entre los dos periodos,
con un nivel de confianza de 5%

Implementación en el STATGRAPHICS Ingresamos los datos en dos columnas, una para cada
periodo, con la opción modificar columna verificamos que la variable sea numérica, nombramos
cada columna. Posteriormente en la ventana de aplicación señalamos comparar, dos muestras,
muestras independientes, tal como se muestra en la siguiente gráfica:

Posteriormente se despliega el cuadro de dialogo para ingresar los datos, Los datos se deben de
ingresar en dos columnas o en columnas de códigos y de datos, en este caso señalamos la opción
dos columnas de datos
Una vez demos aceptar se despliega la siguiente tabla, señalamos resumen estadístico para
verificar si se cumple con el supuesto de normalidad, y comparación de medias para poder
obtener el intervalo de confianza

Los resultados se dan a conocer a continuación:


Resumen Estadístico
Precio Acción 2012 Precio Acción 2013
Recuento 12 12
Promedio 1,47583 1,49667
Desviación Estándar 0,282536 0,295553
Coeficiente de Variación 19,1442% 19,7474%
Mínimo 0,98 0,89
Máximo 1,78 1,78
Rango 0,8 0,89
Sesgo Estandarizado -1,24159 -1,64317
Curtosis Estandarizada -0,380474 0,0530427

El StatAdvisor
Esta tabla contiene el resumen estadístico para las dos muestras de datos. Pueden utilizarse otras opciones tabulares,
dentro de este análisis, para evaluar si las diferencias entre los estadísticos de las dos muestras son estadísticamente
significativas. De particular interés son el sesgo estandarizado y la curtosis estandarizada que pueden usarse para
comparar si las muestras provienen de distribuciones normales. Valores de estos estadísticos fuera del rango de -2 a +2
indican desviaciones significativas de la normalidad, lo que tendería a invalidar las pruebas que comparan las
desviaciones estándar. En este caso, ambos valores de sesgo estandarizado se encuentran dentro del rango esperado.
Ambas curtosis estandarizadas se encuentran dentro del rango esperado.

Los resultados del sesgo estandarizados para los dos periodos indican que se cumple con el
supuesto de normalidad.
A continuación se dan los resultados del intervalo para cada periodo, también para la diferencia de
medias de los dos periodos. Cabe señalar que el intervalo de confianza para la diferencia de
medias fue construido con el supuesto de varianzas iguales, tal como veremos más adelante para
tomar esta decisión es necesario hacer una prueba de hipótesis.
El error máximo admisible para este caso es de 0,244783, por otra parte debido a que la
estimación por intervalos se encuentra entre -0,265617 y 0,22395, conteniendo el, cero es de
esperar que el valor de las acciones se ha mantenido igual en los dos periodos.
Comparación de Medias
Intervalos de confianza del 95,0% para la media de Precio Acción 2012: 1,47583 +/- 0,179515 [1,29632; 1,65535]
Intervalos de confianza del 95,0% para la media de Precio Acción 2013: 1,49667 +/- 0,187786 [1,30888; 1,68445]
Intervalos de confianza del 95,0% intervalo de confianza para la diferencia de medias
Suponiendo varianzas iguales: -0,0208333 +/- 0,244783 [-0,265617; 0,22395]

ESTIMACIÓN DE LA DIFERENCIA DE MEDIAS ENTRE PARES COINCIDENTES

Cuando a una misma unidad experimental se aplica dos tratamientos y se desea saber el cambio
producido en la aplicación de los tratamientos. Generalmente este tipo de pruebas tiene un antes
y un después, se producen entonces n pares de observaciones, de tal manera que cada
observación de antes esta pareada con una observación de después. La diferencia entre n pares de
observaciones está representada por:d 1 , d 2 , ... , d n la media de las diferencias de los pares y la
❑ ❑
desviación estándar para la diferencia de los pares se representan por: d̄ y Sd respetivamente, la
mayoría de veces no se conoce σ d por lo que se hace necesario utilizar Sd .
Además se supone que la población de las diferencias apareadas tiene una distribución normal.
Los intervalos están dados tanto para muestras grandes y muestras pequeñas, utilizando la
distribución normal y la distribución t- de Student según sea el caso tal como se presenta a
continuación:
σd σd
d̄ ± Z α / 2 (√ )
n Y d̄ ±t α /2 , n−1
❑ ❑
(√ )
n
Ejemplo: Algunos investigadores médicos creen que la exposición al polvo de brácteas de algodón
induce enfermedades respiratorias en trabajadores del campo. Se sacan muestras a seis
trabajadores se incuban con diferentes concentraciones de GBE. Después de un periodo corto se
mide el nivel de AMP cíclico (una medida de la actividad celular expresada en pico moles por
millón de células) en cada muestra de sangre. Los datos se dan en la siguiente tabla (observe que
se tomó una muestra de sangre de cada trabajador; una alícuota se expuso a una dilución salina
amortiguadora y la otra al GBE)

0mg/ml=solución salina control y 0,2 mg/ml

Trabajado Concentración de GBE, mg/ml


r 0 mg/ml 0.2 mg/ml

A 8.8 4.4

B 13.0 5.7

C 9.2 4.4
D 6.5 4.1

E 9.1 4.4

F 17.0 7.9

Solución: Se encuentra d el cual es la diferencia entre las dos concentraciones, los resultados se
dan en la siguiente tabla:

TRABAJADO
A B C D E F
R

d 4.4 7.3 4.8 2.4 4.7 9.1


❑ ❑ ❑ ❑
Haciendo los cálculos para obtener d̄ y Sd tenemos: d̄=5.4 5 y S d =2.16 se busca el valor de
t α/ 2
❑ ❑
, 5
=2.571, el intervalo de confianza está dado por:

Sd 2.16
d̄ ±t α /2 ❑ ❑
, 5
5.45 ±2.571 5.45 ±2.267
√n √6

Ejemplo: Se lleva a cabo una investigación con el fin de determinar, si la implementación de un


método en un determinado grupo de estudiantes tiene efecto positivo, en la resolución de
conflictos. Para ello se mide el grupo antes de la intervención mediante un test, y después de la
implementación del método. Se obtienen los siguientes resultados:

Antes 34 35 46 42 41 46 53 57 33 41 60 35 35 42 47 42 42 39
Despué 49 48 50 50 51 46 50 50 48 38 51 49 50 51 48 50 51 52
s

Encuentre un intervalo de confianza para la diferencia de medias con un nivel de confianza del
5%.

Para la implementación en el STATGRAPHICS de debe de ingresar los datos en la ventana de


aplicación, en dos columnas “Antes” y “Después”.
Tal como se ha hecho antes, debemos de verificar que la variable sea numérica, seleccionamos
comparar, dos muestras, muestras pareadas. Se despliega el siguiente cuadro de dialogo,
ingresamos la columna antes en la muestra 1 y la columna después en la muestra 2 y damos
aceptar.

Se despliega el cuadro de tablas y gráficos, seleccionamos resumen estadístico para verificar la


normalidad e intervalos de confianza, damos aceptar. Los resultados se muestran a continuación:

Resumen Estadístico para Antes - Después


Recuento 18
Promedio -6,22222
Desviación Estándar 7,92283
Coeficiente de Variación -127,331%
Mínimo -15,0
Máximo 9,0
Rango 24,0
Sesgo Estandarizado 1,05364
Curtosis Estandarizada -0,788285

El StatAdvisor
El sesgo estandarizado y la curtosis se encuentran dentro del rango -2, 2 por tanto se cumple el
supuesto de normalidad.
Intervalos de Confianza para Antes - Después
Intervalos de confianza del 95,0% para la media: -6,22222 +/- 3,93994 [-10,1622; -2,28228]
Intervalos de confianza del 95,0% para la desviación estándar: [5,94519; 11,8775]
El intervalo de confianza está desde -10,1622 , -2,28228, debido a que el intervalo no contiene el
cero, se puede afirmar que hay diferencias en el grupo antes y después de la intervención,
además como el intervalo tiene signo negativo, se puede afirmar que los puntajes obtenidos
después de la intervención son mayores.

ESTIMACIÓN DE LA DIFERENCIA DE PROPORCIONES POBLACIONALES

Se supone que las muestras de las dos poblaciones tienen tamaño grande es decir igual o mayor
que 30, para que la aproximación sea válida.
❑ ❑ ❑ ❑ ❑ ❑ ❑
Se sustituye los valores de ^p1 , q^ 1 y ^p 2 , q^ 2 por los parámetros poblacionales respectivos
para el cálculo de σ ^p −^p . El intervalo está dado por:
1 2

p1q1 p2q2
^p1− ^p2 ± Z α / 2 ⋅
√ n1
+
n2
❑ ❑
Donde ^p1 y ^p2son obtenidas por medio de la muestra.

Ejemplo: Se lleva a cabo una investigación con pacientes que padecen gastritis. Se piensa que la
bacteria helicobacter Pilori está asociada a pacientes con gastritis y ataca de igual manera a
hombres y mujeres que padecen esta enfermedad. Para ello se toma 97 pacientes hombres y 115
mujeres los cuales padecen gastritis y que fueron sometidos a un examen paras detectar la
presencia de la bacteria, obteniendo los siguientes resultados: 63 hombres y 71 mujeres
resultaron positivos para la presencia de dicha bacteria. Obtenga un intervalo de confianza con un
nivel de confianza α =0.01 para la diferencia de proporciones poblacional:

Solución: Llamamos población uno a los hombres y población dos a las mujeres, encontramos los
❑ ❑
valores de ^p1 y ^p2:

x 1 63 ¿ x 2 71 ¿
^p1= = =0.65 q^ 1=1−0.65=0.35 ^p2= = =0.618 q^ 2 =1−0.618=0.382
n1 97 n 2 115
❑ ❑ ❑ ❑ ❑ ❑ ❑
Se sustituye los valores de ^p1 , q^ 1 y ^p 2 , q^ 2 por los parámetros poblacionales respectivos
para el cálculo de σ ^p −^p , el valor de Z α /2 =Z 0.005=2.58. Sustituyendo los valores tenemos:
1 2

p1q1 p2q2 0.65 ×0.35 0.618 ×0.382


^p1− ^p2 ± Z α / 2 ⋅
√ n1
+
n2
(0.65−0.618)± 2.58
97
+
√ 115
0.032 ±(2.58 ×0.066)=0.032± 0.17[ −0.13 8❑ ,❑ 0.202 ]

Con un nivel de confianza del 99% se puede decir que la diferencia real hombres y mujeres
infestados con la bacteria helicobacter Pilori está entre -0.138 y 0.202. Observe que el intervalo de
confianza contiene el valor de cero lo que es un claro indicio que la proporción de hombres y
mujeres afectados con esa bacteria es igual.
INTERVALO DE CONFIANZA PARA LA VARIANZA POBLACIONAL

La varianza no se distribuye normal, la estadística pivote para su distribución es una χ 2 con n−1
grados de libertad, cabe recordar que la distribución Chi- Cuadrada no es simétrica y es mayor que
cero. Por lo anterior si queremos ubicar un área en la cola inferior de la distribución debemos
2 2 2
encontrar χ 1−α donde P( χ > χ 1−α )=1−α . La estadística pivote para χ 2está dada por:

P( χ 21−α ≤ χ 2 ≤ χ 2α / 2)=1−α

(n−1) S2
Como χ 2es , sustituyendo este valor en la expresión anterior tenemos:
σ2

(n−1) S2
P χ
[ 2
1−α ≤
σ 2 ]
≤ χ 2α /2 =1−α

Dividiendo por (n−1) S2tenemos:

1 χ 21−α
χ 2α /2
P
( ≤ ≤
(n−1)S2 σ 2 (n−1) S 2
=1−α
)
Invirtiendo los términos:

(n−1)S2 2
2 (n−1)S
P
( χ 2α / 2
≤ σ ≤
χ 21−α
=1−α
)
Entonces el intervalo de confianza está dado por:

(n−1) S2 2 ( n−1) S2
≤σ ≤
χ 2α /2 χ 21−α

Ejemplo: Se llevó a cabo una investigación con el objeto de determinar la variación del precio de
las acciones de ISA. Los datos representan 10 mediciones de los valores alcanzados en los diez
últimos meses y se muestran en la siguiente tabla:

Serie 1 2 3 4 5 6 7 8 9 10

Concentració 5506 5507 5500 5497 5506 5527 5504 5490 5500 5497
n

Utilice la anterior información para obtener un intervalo de confianza para la varianza poblacional
con α =0.05.
Solución: De los datos anteriores calculamos la desviación estándar de la muestra S=9.82
❑ ❑ ❑
entonces S2=96.48, grado s d e liberta d =n−1=(10−1)=9

Hallamos los valores de χ 2 2 y χ2 . Remplazando estos


1−α /2 ,9= χ 0.975, 9=2.70039 α /2 ,9=19.0228
❑ ❑ ❑

valores tenemos:
(n−1) S2 2 ( n−1) S2 9 ×(96.48) 2 9(96.48)
2
≤σ ≤ 2 ≤σ ≤ [ 45.6 4❑ ,❑321.5 ]
χ α /2 χ 1−α 19.0228 2.70039

Si necesitamos el intervalo de confianza para la desviación estándar debemos de sacar la raíz


cuadrada a los valores límites:
[ 6,756 5❑ ,❑ 17,9327 ]
Implementación en STATGRAPHISC.
Ingresamos los datos en la ventana de aplicación, teniendo en cuenta que la variable sea
numérica, en este caso hemos llamado a la columna “precio Acciones”, entramos a la opción
describir, señalamos datos numéricos, análisis de una variable

Se despliega el siguiente cuadro de dialogo, ingresamos precio acciones en datos y damos aceptar

Se despliega el cuadro de dialogo de tablas y gráficos, seleccionamos resumen estadístico e


intervalos de confianza y damos aceptar. Se obtienen los siguientes resultados:
Resumen Estadístico para Precio Acciones
Recuento 10
Promedio 5503,4
Desviación Estándar 9,82288
Coeficiente de Variación 0,178487%
Mínimo 5490,0
Máximo 5527,0
Rango 37,0
Sesgo Estandarizado 1,93291
Curtosis Estandarizada 1,43971

Los valores de la curtosis y el sesgo se encuentran dentro de los límites por lo tanto se cumple el
supuesto de normalidad. El intervalo de confianza para la deviación estándar se encuentra entre
6,75652 y 17,9327.
Intervalos de Confianza para Precio Acciones
Intervalos de confianza del 95,0% para la media: 5503,4 +/- 7,02688 [5496,37; 5510,43]
Intervalos de confianza del 95,0% para la desviación estándar: [6,75652; 17,9327]

PRUEBA DE HIPÓTESIS

Existe otra forma de hacer inferencias respecto a los parámetros poblacionales desconocidos, esta
se centra en contrastar hipótesis referentes a sus valores. El método a seguir es proponer una
teoría, planteando hipótesis respecto a los valores específicos de los parámetros poblacionales y
después se prueba esa teoría respecto de la observación, si las observaciones se contraponen a la
teoría, la hipótesis debe de rechazarse. Algunos autores prefieren llamar a la técnica de contrastar
hipótesis juzgamiento de hipótesis, la razón es que lo que se hace es buscar evidencia suficiente
acerca de la veracidad de los valores de los parámetros poblacionales.

HIPÓTESIS ESTADÍSTICAS
Para llegar a tomar decisiones, conviene hacer determinados supuestos o conjeturas acerca de las
poblaciones que se estudian, las cuales se denominan hipótesis estadísticas. En muchos casos se
formulan las hipótesis estadísticas con el solo propósito de rechazarlas o invalidadas.
La hipótesis es una conjetura acerca de una situación que se está estudiando, y que es susceptible
de ser probada a partir de la información obtenida en una muestra representativa de la población.
En los experimentos comparativos simples, generalmente hacen referencia a los efectos de los
tratamientos en la variable respuesta.
La metodología a seguir consiste en formular dos hipótesis mutuamente excluyentes de tal
manera que la afirmación de una signifique la negación de la otra, a estas se les conoce como:
Hipótesis nula: Corresponde a la afirmación que se hace sobre un parámetro poblacional, se
denota como H 0
Hipótesis Alterna: Es la que conlleva a realizar la investigación, su afirmación involucra la negación
de la hipótesis nula, se denota como H 1
Para probar una hipótesis estadística se debe de tomar una muestra aleatoria, calcular un
estadístico de prueba para establecer si se está en posición de rechazar o aceptar dicha hipótesis.
Por conveniencia se rechaza o se acepta H 0. La valides de la hipótesis nula depende del estadístico
de prueba, por lo que se hace necesario puntualizar el conjunto de valores de este que conduzcan
al rechazo de H 0, a este conjunto de valores se le denomina región de rechazo de la prueba.
Región de rechazo: Definimos la región de rechazo al área que indica los valores del estadístico de
prueba que implicarían el rechazo de la hipótesis nula. De igual manera definimos el valor crítico
como el valor de Z que separa la región de aceptación y la región de rechazo.
Debido a que la prueba se centra en aceptar o rechazar la H 0 en concordancia con la hipótesis H 1,
entonces existe solo dos posibilidades de cometer errores: Rechazar H 0cuando esta es verdadera Y
aceptar H 0 cuando esta es falsa. Al primer error se le conoce como error tipo I y al segundo se le
conoce como error tipo II, estas probabilidades están dadas por las siguientes probabilidades
condicionadas:

α =P ( erro r ❑ tipoI ) =P ( rec h aza r ❑ H 0|H 0❑ e s❑ verdadera )


β=P ( erro r ❑ tipoII )=P ( Acepta r ❑ H 0|H 0❑ e s❑ falsa )

Lo anterior nos lleva a definir un concepto no menos importante al que denominamos potencia
de la prueba el cual está dado por:

Potencia=1− β=P ( rec h aza r ❑ H 0|H 0❑ e s❑ falsa )

El procedimiento general de la prueba de hipótesis es especificar un valor de probabilidad para el


error tipo I, al que generalmente se le conoce como nivel de significancia de la prueba, encontrar
el valor de Z α en la tabla de la normal, observe que este valor va a dividir la curva de la normal en
dos regiones una correspondiente al nivel de significancia o probabilidad para el error tipo I que
conlleva a el rechazo de H 0 a la que denominaremos región de rechazo. La otra corresponde a
1−α y que concierne a la zona de aceptación de H 0, la cual denominaremos región de aceptación.
Una vez fijamos estas zonas diseñamos un procedimiento de prueba de tal modo que la
probabilidad β de cometer el error tipo II tenga un valor pequeño.
Ahora debemos calcular un estadístico de prueba, el cual se consigue calculando un valor de
^ 0
θ−θ
Z= , donde θ0 es el valor del parámetro en la hipótesis nula. A partir de los datos obtenidos
σ θ^
en la muestra y el valor del parámetro en la hipótesis nula. Si el valor del estadístico de prueba es
menor que el valor critico se acepta la hipótesis nula H 0, en caso contrario se rechaza
Las siguientes tablas muestran un resumen de los estadísticos de prueba, supuestos que se debe
de tener en cuenta para realizar las pruebas, así como las respectivas regiones de rechazo para
cada prueba

Prueba de hipótesis (una muestra)


Hipótesis Supuestos Hipótesis Estadístico de Región de
nula alterna prueba rechazo
X̄−μ0
Muestras grandes , σ 2 μ< μ0 μ> μ0 Z= Z ≥ zα Z ≤ zα
μ=μ 0 σ
conocida, normalidad μ ≠ μ0 |Z|≥ z α / 2
√n
X̄−μ0
Muestras grandes, σ 2 μ< μ0 μ> μ0 Z= Z ≥ zα Z ≤ zα
μ=μ 0 S
desconocida μ ≠ μ0 |Z|≥ z α / 2
√n
X̄−μ 0 T ≥ t α , n−1
Normalidad, muestras μ< μ0 μ> μ0 T=
μ=μ 0 S T ≤−t α , n−1
pequeñas, σ 2 desconocida μ ≠ μ0
√n |T |≥t α / 2 ,n−1
^p− p0
Experimento binomial, μ< μ0 μ> μ0 Z= Z ≥ zα Z ≤ zα
p= p 0 p 0 q0
muestras grandes μ ≠ μ0
√ n
|Z|≥ z α / 2
χ 2 ≥ χ 2α , n−1
σ < σ 0σ > σ 0 ( n−1 ) S 2 χ 2 ≤ χ 21−α , n−1
σ =σ 0 normalidad χ 2= ❑
σ ≠ σ0 σ 20 2 2
χ ≥ χ α / 2, n−1 o ,
χ 2 ≤ χ 21−α /2 , n−1

Prueba de hipótesis (dos muestras)

Hipótesis Supuestos Hipótesis Estadístico de prueba Región de


nula alterna rechazo
Muestras grandes , μ1−μ 2> Δ0 ( X̄ 1− X̄ 2 )−Δ 0
Z= Z ≥ zα Z ≤ zα
μ1−μ 2=Δ 0 σ 12 . , .σ 22conocidas, μ1−μ 2< Δ0 σ 21 σ 22
normalidad

Muestras grandes,
μ1−μ 2 ≠ Δ0

μ1−μ 2> Δ0
√ +
n 1 n2
( X̄ 1− X̄ 2 )−Δ 0
|Z|≥ z α / 2

2 2 Z= Z ≥ zα Z ≤ zα
μ1−μ 2=Δ 0 σ . , .σ desconocidas, μ1−μ 2< Δ0 S21 S22
1 2

independencia

Normalidad,
μ1−μ 2 ≠ Δ0
√+
n1 n2
( X̄ 1− X̄ 2 )− Δ0
|Z|≥ z α / 2

T=
independencia μ1−μ 2> Δ0 1 1 donde : T ≥ t α , n +n −2
μ1−μ 2=Δ 0 muestras pequeñas,
σ 12 . , .σ 22 desconocidas,
μ1−μ 2< Δ0
μ1−μ 2 ≠ Δ0
Sp
√ +
n 1 n2
2 2
1

T ≤−t α , n +n −2 1

|T |≥t α / 2 ,n + n −2
2

pero iguales S p=
√ (n1−1)S +(n2−1)S
n 1+ n2−2
( X̄ 1− X̄ 2 )− Δ0
1 2 1 2

T=
S21 S22 Siendo:
Normalidad,
independencia μ1−μ 2> Δ0
√ +
n1 n2
S 21 S22
2 T ≥ t α, V
μ1−μ 2=Δ 0 muestras pequeñas,
σ 12 . , .σ 22 desconocidas,
μ1−μ 2< Δ0
μ1−μ 2 ≠ Δ0 V=
( +
n 1 n2 ) T ≤−t α , V
|T |≥t α / 2 ,V
2 2
S 21 S22
pero diferentes
( ) ( )
n1
+
n2
n1−1 n2−1
Normalidad muestras μ D > Δ0 D̄−Δ 0 T ≥ t α , n−1
T=
μ D= Δ0 pequeñas , pareadas, μ D < Δ0 SD T ≤−t α , n−1
dependencia μ D ≠ Δ0 √n |T |≥t α / 2 ,n−1
( ^p1− ^p 2) −0
Z=
p1− p2 >0 Donde :
^p q^ 1 + 1
p1− p2=0
Experimento binomial,
muestras grandes,
independencia
p1− p2 <0
p1− p2 ≠ 0
√ (n1 n2
X + X2
) Z ≥ zα Z ≤ zα
|Z|≥ z α / 2
^p= 1
n1 +n 2
p1 − p2 > Δ 0 ( ^p1 −^p 2 )−Δ 0
Experimento binomial, Z= Z ≥ zα Z ≤ zα
p1− p2= Δ0 muestras grandes, p1− p2 < Δ 0 ^p1 q^ 1 ^p 2 q^ 2
independencia p1− p2 ≠ Δ0
σ < σ0
√( n1
+
n2) |Z|≥ z α / 2

2 2 Normalidad, S 21 F ≥ F α , n−1 ,n−2


σ =σ σ > σ0 F= 2
1 2
independencia S2 F ≤ F1−α , n−1 , n−2
σ ≠ σ0

Cabe anotar que entre ellos se destaca cuando se hace comparaciones con muestras pequeñas ya
que se debe de usar la distribución t- de student, existen dos casos en los cuales está involucrada
esta distribución: primero cuando siendo desconocidas las varianzas poblacionales se suponen
estas iguales, segundo cuando siendo desconocidas las varianzas poblacionales se suponen estas
diferentes.
Se puede hacer la prueba F para lograr determinar si las varianzas poblacionales son iguales o no,
las hipótesis para esta prueba son:

H 0 :σ 21=σ 22 H 1 : σ 21 ≠ σ 22

El estadístico de prueba aparece consignado en la tabla anterior, de igual manera la región


correspondiente para la aceptación o no de la hipótesis nula. Una vez se haya determinado si se
puede considerar las varianzas poblacionales iguales o no se puede recurrir a las formulas
planteadas para el caso correspondiente.
Cabe referirse al hecho, que para poder realizar la prueba t- de student se debe verificar los
supuestos: ambas muestras se toman de poblaciones independientes, este supuesto es crítico,
pero si el orden de las corridas es aleatorizado, este supuesto por lo general se satisfará, de igual
manera aun cuando el supuesto de normalidad es necesario para desarrollar formalmente el
procedimiento de prueba, las desviaciones moderadas de normalidad no afectan los resultados.
Puede argumentarse que el uso de un diseño aleatorizado permite hacer la prueba sin supuesto
alguno de normalidad (Montgomery 2003)

PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL MUESTRAS GRANDES


Cuando se requiere contrastar hipótesis para medias poblacionales con tamaños de muestra
mayores o iguales a 30, se conoce la desviación estándar o no se conoce pero se puede estimar a
partir de la muestra. El estadístico de prueba está dado por:

X̄−μ0
Z=
σ
√n
Donde μ0es el valor de la media poblacional en la hipótesis nula, la anterior Tabla muestra las
hipótesis a tener en cuenta para este caso:
Ejemplo: Estudiantes de ingeniería agroindustrial de la Universidad de Nariño prueban la vida de
anaquel de una bebida carbonada a base de uchuva, se quiere demostrar que la vida media
excede los 120 días. Se seleccionaron una muestra de 51 botellas al azar de la producción diaria y
se obtiene los siguientes resultados. ¿Existe evidencia suficiente para afirmar que la bebida no
excede los 120 días? Realice la prueba con α =0.05 .

X̄ =117❑ d í asS=15.3n=51

Solución: Las hipótesis son:


H 0 :μ 0 ≥ 120H 1 : μ 0< 120

Debido a que en la muestra se obtiene un valor por debajo de los 120 días, es de sospechar que la
vida media de la bebida es inferior, por tanto se plantea la hipótesis alterna teniendo en cuenta
este hecho. Se calcula el estadístico de prueba:
X̄−μ0
Z=
σ
√n
Donde Δ 0es el valor de μ0 en la hipótesis nula, remplazando tenemos:

117−120
Z= =−1.400
15.3
√ 51
Dado que el estadístico de prueba es menor que el valor crítico con Z α /2 =−1.96, entonces se
acepta la hipótesis nula, no hay evidencia suficiente para afirmar que la vida media de la bebida
es inferior a los 120 días.
Ejemplo: El grupo ÉXITO identificado por Great place to Work como una de las compañías
Colombianas con más de 500 empleados donde las personas se sienten orgullosas de trabajar,
afirma que mensualmente invierte 970 millones de pesos en planes integrales para beneficiar a
sus trabajadores. Indica además que contribuye diariamente en venta de sus mercancías a precios
especiales entre sus colaboradores por más de 32 millones. Se decide hacer seguimiento durante
120 días y se obtiene que en promedio diario vende a sus colaboradores 23 millones con una
desviación estándar de 7 millones. ¿Hay evidencia suficiente para probar que las ventas que
benefician a los colaboradores del grupo ÉXITO es menor a la cantidad que ellos afirman vender?
Realice la prueba con un nivel de confianza del 5%
Implementación en STATGRAPHISC En la ventana de aplicación señalamos describir, datos
numéricos, prueba de hipótesis.
Se despliega el cuadro de dialogo de prueba de hipótesis, señalamos el parámetro
correspondiente en este caso media normal, la hipótesis nula que es de 32 millones, la media de la
muestra que es de 29,9 millones, la desviación estándar que es de 9,1 millones y el tamaño de la
muestra que es de 62. Las hipótesis a tener en cuenta son:
H 0 :μ 0 ≥ 32H 1 : μ 0< 32

Damos aceptar, se despliega el cuadro de dialogo de opciones prueba de hipótesis, de acuerdo con
la hipótesis alterna debemos señalar la opción menor que. Los resultados se presentan a
continuación:
Pruebas de Hipótesis
Media muestral = 29,9
Desviación estándar muestral = 9,1
Tamaño de muestra = 62

Límite superior de confianza del 95,0% para la media: 29,9 + 1,90096 [31,801]

Hipótesis Nula: media = 32,0


Alternativa: menor que
Estadístico Z calculado = -1,81708
Valor-P = 0,0346024
Rechazar la hipótesis nula para alfa = 0,05.

El StatAdvisor
Este análisis muestra los resultados de realizar una prueba de hipótesis relativa a la media (mu) de una distribución
normal. Las dos hipótesis a ser evaluadas aquí son:

Hipótesis nula: mu = 32,0


Hipótesis alterna: mu < 32,0

Dada una muestra de 62 observaciones con una media de 29,9 y una desviación estándar de 9,1, el estadístico Z calculado
es igual a -1,81708. Puesto que el valor-P para la prueba es menor que 0,05, puede rechazarse la hipótesis nula con un
95,0% de nivel de confianza. La cota de confianza muestra que los valores de mu soportados por los datos son menores o
iguales que 31,801.
De acuerdo con los resultados no hay evidencia suficiente para afirmar que las ventas que
benefician a los colaboradores sean iguales o mayores a 32 millones de pesos. Por otra parte si
observamos el límite superior del intervalo de confianza indica que por mucho dichas ventas llegan
a los 31,8 millones.

PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL MUESTRAS PEQUEÑAS


Cuando se requiere contrastar hipótesis con muestras menores de 30, no se conoce la desviación
estándar poblacional, pero se puede estimarla a partir de la muestra, se supone que la muestra
proviene de una distribución normal. La región de rechazo aparece en la tabla.
Ejemplo: el tiempo medio de vida de un dispositivo electrónico es una variable aleatoria que sigue
una distribución normal. Se toma una muestra de 15 dispositivos y se obtiene los siguientes
resultados:
Horas
159 280 101 212 149
224 279 179 264 260
222 262 168 250 185
El fabricante afirma que el tiempo promedio de vida es mayor a 225 horas. Encuentre si hay
evidencia suficiente para afirmar que el tiempo de vida promedio es menor al indicado por el
fabricante. Utilice un nivel de confianza de α =0.05

Solución: Como no se conoce la desviación estándar poblacional, esta se estima a partir de la


muestra, además el tamaño de la muestra es pequeño, se calcula la media y la desviación
estándar: 212,933 y 54,2145 respectivamente, entonces el estadístico de prueba se obtiene a
partir de T, de acuerdo a la siguiente ecuación:
X̄−μ 0
T=
S
√n
Las hipótesis son:
H 0 :μ 0 ≥ 22 5❑ h orasH 1 : μ 0< 225❑ h oras
Remplazando los valores tenemos:
212.93−225
T= =−0.8620
54.21
√15
Dado que el estadístico de prueba es mayor que el valor crítico con n-1 grados de libertad es
t 0.025 , 14=−2.1448, (se debe de tomar -2.1448 debido a que es una prueba a una cola y la zona
❑ ❑

de rechazo se encuentra a la izquierda) entonces se acepta la hipótesis nula. Hay evidencia


suficiente para afirmar que el promedio de vida de los artefactos electrónicos es mayor a 225
horas.
Implementación en el STATGRAPHISC
Se ingresan los datos en la ventana de aplicación, en una sola columna la cual hemos llamado
“Tiempo de Vida”, damos clip derecho para verificar que la variable sea numérica, damos aceptar.
En la ventana de aplicación señalamos: describir, datos numéricos, análisis de una variable, tal
como se puede apreciar en la gráfica:

Posteriormente se despliega el siguiente cuadro de dialogo:

Ingresamos la variable y damos aceptar, Se despliega el siguiente cuadro de dialogo, pedimos el


resumen estadístico y la prueba de hipótesis:

Resumen Estadístico para Tiempo de Vida


Recuento 15
Promedio 212,933
Desviación Estándar 54,2145
Coeficiente de Variación 25,4608%
Mínimo 101,0
Máximo 280,0
Rango 179,0
Sesgo Estandarizado -0,796199
Curtosis Estandarizada -0,497405

El StatAdvisor
Esta tabla muestra los estadísticos de resumen para Tiempo de Vida. Incluye medidas de tendencia central, medidas de
variabilidad y medidas de forma. De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las
cuales pueden utilizarse para determinar si la muestra proviene de una distribución normal. Valores de estos estadísticos
fuera del rango de -2 a +2 indican desviaciones significativas de la normalidad, lo que tendería a invalidar cualquier
prueba estadística con referencia a la desviación estándar. En este caso, el valor del sesgo estandarizado se encuentra
dentro del rango esperado para datos provenientes una distribución normal. El valor de curtosis estandarizada se
encuentra dentro del rango esperado para datos provenientes de una distribución normal.

De acuerdo con los anteriores resultados la curtosis y el sesgo se encuentran dentro del intervalo
para datos normales, por lo que podemos decir que el supuesto de normalidad se cumple.
En los resultados de la prueba de hipótesis damos clip derecho en opciones de ventana y se
despliega el siguiente cuadro de dialogo:

Marcamos la prueba t de student, el valor de la media que es en este caso 225,0, la hipótesis
alterna es menor que, verificamos el nivel de significancia y damos aceptar. Los resultados se dan
a continuación:
Prueba de Hipótesis para Tiempo de Vida
Media Muestral = 212,933
Mediana Muestral = 222,0
Desviación Estándar de la Muestra = 54,2145

Prueba t
Hipótesis Nula: media = 225,0
Alternativa: menor que

Estadístico t = -0,862021
Valor-P = 0,2016
No se rechaza la hipótesis nula para alfa = 0,05.

El StatAdvisor
Esta ventana muestra los resultados de las pruebas relativas a la población de la cual procede la muestra de Tiempo de
Vida. La prueba-t evalúa la hipótesis de que la media de Tiempo de Vida es igual a 225,0 versus la hipótesis alterna de
que la media de Tiempo de Vida es menor que 225,0. Debido a que el valor-P para esta prueba es mayor o igual a 0,05,
no se puede rechazar la hipótesis nula, con un nivel de confianza del 95,0% de confianza.
Se acepta la hipótesis nula y se concluye que no hay evidencia suficiente para afirmar que el
tiempo de vida es inferior a las 225 horas.

PRUEBA DE HIPÓTESIS PARA LA PROPORCIÓN POBLACIONAL


Cuando se tiene muestras grandes de un experimento binomial, el valor de p0 es la proporción en
la hipótesis nula y n es el tamaño de la muestra. El estadístico de prueba está dado por:

^p− p0
Z=
p 0 q0
√ n

Ejemplo: El concejo de Bogotá dice que las losas de transmilenio fueron construidas con un
material por debajo de las especificaciones y presentan un deterioro prematuro. Por otro lado, la
compañía encargada de su construcción asegura que esas aseveraciones son exageradas y dice
que el 95% se encuentran en buen estado. A fin de probar esta situación un equipo de ingenieros y
expertos evaluaron 60 unidades seleccionadas al azar y encontraron que 52 de ellas exhibían buen
estado. ¿Hay pruebas, con α =0.05 de que la verdadera proporción de losas en mal estado es
menor que lo que afirma la compañía constructora?
Solución: Se plantea las siguientes hipótesis:

H 0 : p 0=0.95H 1 : p 0 ≤ 0.95

52
El valor de ^p= =0.867 .
60
Encontramos el valor del estadístico de prueba:
^p− p0 0.867−0.95 −0.083
Z= Z= = =−2.964
p 0 q0 0.95 ×0.05 0.028
√ n √ 60

Dado que el estadístico de prueba es menor que el valor crítico con Z α /2 =−1.96, entonces se
rechaza la hipótesis nula y se concluye que hay suficiente evidencia para afirmar que el porcentaje
de losas en buen estado es inferior al que asegura la compañía.

Ejemplo: El presidente Maduro acusa la empresa Polar, mayor productor alimenticio del país, de
llevar a cabo una estrategia de desabastecimiento. Las empresas Polar escriben en su cuenta de
Twitter que está produciendo a plena capacidad la harina de maíz, clave en la dieta de los
venezolanos, y que el 48% de la harina en los supermercados es de “harina Pan” su producto
bandera. El gobierno decide tomar una muestra de 220 tiendas de barrio y encuentra que el 43%
de la harina corresponde a “harina Pan”. ¿Existe evidencia suficiente para afirmar que el
porcentaje de harina en el mercado correspondiente a “harina Pan” es inferior? Realice la prueba
con un nivel de confianza del 5%

Implementación en el STATGRAPHISC
Entramos los datos en la ventana de aplicación, en describir, datos numéricos, prueba de
hipótesis, damos clip para ingresar los datos y a continuación se despliega el cuadro de dialogo,
para prueba de hipótesis:

En el cuadro de dialogo de prueba de hipótesis, señalamos proporción binomial, en hipótesis nula


ingresamos el valor de 0,48, en la proporción de la muestra ingresamos el valor de 0,43 y en
tamaño de la muestra 1220

Señalamos en opciones prueba de hipótesis menor que y obtenemos los siguientes resultados
Pruebas de Hipótesis
Proporción de muestra = 0,43
Tamaño de muestra = 1220

Intervalo aproximado del límite superior de confianza del 95,0% para p: [0,453831]

Hipótesis Nula: proporción = 0,48


Alternativa: menor que
Valor-P = 0,000286559
Rechazar la hipótesis nula para alfa = 0,05.

El StatAdvisor
Este análisis muestra los resultados de realizar una prueba de hipótesis relativa a la proporción (teta) de una distribución
binomial. Las dos hipótesis a ser evaluadas aquí son:

Hipótesis nula: teta = 0,48


Hipótesis alterna: teta < 0,48
En esta muestra de 1220 observaciones, la proporción muestral es igual a 0,43. Puesto que el valor-P para la prueba es
menor que 0,05, puede rechazarse la hipótesis nula con un 95,0% de nivel de confianza. La cota de confianza muestra
que los valores de teta soportados por los datos son menores o iguales que 0,453831.
Los resultados indican hay evidencia suficiente para concluir que el porcentaje de “harina pan” es
inferior a lo indicado por la empresa polar
POTENCIA DE LA PRUEBA
Suponga que realizamos la prueba anterior con una muestra de 220 establecimientos comerciales
los resultados se dan a continuación:
Intervalo aproximado del límite superior de confianza del 95,0% para p: [0,487636]

Hipótesis Nula: proporción = 0,48


Alternativa: menor que
Valor-P = 0,086445
No rechazar la hipótesis nula para alfa = 0,05.

El StatAdvisor
Este análisis muestra los resultados de realizar una prueba de hipótesis relativa a la proporción (teta) de una distribución
binomial. Las dos hipótesis a ser evaluadas aquí son:

Hipótesis nula: teta = 0,48


Hipótesis alterna: teta < 0,48

Como se puede apreciar este resultado difiere del obtenido anteriormente, puesto que en este
caso no hay evidencia suficiente para afirmar que el porcentaje de harina es inferior al indicado
por los productores
Muestra de 220

Muestra de 1220
Cabe entonces la pregunta ¿cuál de los dos resultados se debe de tener en cuenta? Está pregunta
la podemos resolver mirando la potencia de cada prueba. Para el caso de la prueba con una
muestra de 220 establecimientos corresponde la curva de arriba, podemos observar que para una
proporción de aproximadamente el 0,43 corresponde una potencia de prueba de
aproximadamente 0,38, lo quiere decir que la probabilidad de cometer el error tipo II es de 1-0,38
=0,62. Mientras que en el segundo cuadro que corresponde a una muestra de 1220
establecimientos para una proporción aproximada de 0,43 corresponde una potencia de prueba
de 0,96, la probabilidad de cometer el error tipo II es de 1-0,96=0,04, por lo tanto se debe de tener
en cuenta los resultados correspondientes a la muestra de 1220.

PRUEBA DE HIPÓTESIS PARA LA VARIANZA POBLACIONAL


La prueba de hipótesis para la varianza poblacional parte del hecho de que la muestra proviene de
una distribución normal con media=μ y Desviaci ó n est á ndar =σ . El estadístico de prueba

está dado por la siguiente expresión.

( n−1 ) S 2
χ 2=
σ 20
El valor de χ 2α se escoge tal que P( χ 2 ≥ χ 2α )=α la región de rechazo se puede consultar en la tabla
Ejemplo: Suponga que la oficina de pesas y medidas especifican que la desviación estándar de la
cantidad de llenado debe de ser menor a 4.1 cc El supervisor de control de calidad, toma una
muestra de la producción diaria de 12 bolsas de leche de la pasteurizadora colácteos y mide la
cantidad de llenado. Los datos se dan a continuación:
790 796 798 801 797 803 802 804 801 799 788 804 797 798 800
Solución: Se debe primero encontrar la varianza para poder plantear las hipótesis. Haciendo los
cálculos correspondientes tenemos S=4.64 , luego o S2=21.52 remplazamos los valores en el
estadístico de prueba:
2 ( n−1 ) S 2 2 ( 15−1 ) 21.52 2
χ= χ= χ =17.922
σ 20 4.12

Las hipótesis son:


H 0 :σ 0=4. 12 H 1 : σ 0 >4. 12

2
Si el valor del estadístico de prueba es menor que el valor de χ α /2 , 14, se acepta H 0, buscamos
❑ ❑

este valor en la tabla y vemos que corresponde a 26.1190.


Como el valor del estadístico de prueba es 17.922, menor que el valor encontrado en la tabla
26.1190 se acepta H 0.

PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE MEDIAS POBLACIONAL MUESTRAS GRANDES


En la prueba para diferencias de medias para muestras grandes se presentan dos casos: cuando se
conocen las varianzas poblacionales y cuando se desconocen estas pero se pueden estimar a partir
de la muestra, el supuesto de normalidad no es necesario considerar ya que a partir del teorema
del límite para muestras grandes se considera que hay normalidad. La región de rechazo está
considerada en la Tabla, el estadístico de prueba se da a continuación.

( X̄ 1− X̄ 2 )−Δ 0
Z=
σ 21 σ 22
√ +
n 1 n2
Ejemplo: Se quiere estudiar la resistencia a la tensión del cemento portland usando dos tipos
diferentes de mesclado. Los ingenieros afirman el tipo de mezclado dos es más eficiente que el
tipo uno. Se toma una muestra para cada uno de los tipos y se obtiene los siguientes resultados:

Tip o❑1 X̄ =319 7❑ ¿S=15.3n=71 Tip o❑ 2 X̄ =320 4❑ ¿S=19.9n=75

Pruebe si los tipos de mezclado tienen alguna influencia en la resistencia del cemento. Utilice
α =0.05
Solución: Se trata de muestras grandes, no se conocen las varianzas poblacionales pero se pueden
estimar a partir de la muestra. Las hipótesis son:
H 0 :μ 1=μ2 H 1 : μ 1 ≠ μ 2

Observe que el valor de Δ 0=0 : remplazando los valores en el estadístico de prueba tenemos:

( X̄ 1− X̄ 2 )−Δ 0 (3197−3204 )−0 −7


Z= Z= =
2
σ σ 2
15. 32 19. 92 2.928 Z=−2.39
√ 1
+
n 1 n2
2
√ 71
+
75

Dado que el estadístico de prueba es menor que el valor crítico con Z α /2 =−1.96, entonces se
rechaza la hipótesis nula y podemos concluir que hay diferencias entre los dos tipos de mezclado,
o que no hay evidencia suficiente para afirmar que los dos tipos producen iguales resultados.

PRUEBA DE HIPÓTESIS PARA LA IGUALDAD DE VARIANZAS POBLACIONALES


Se considera la prueba de igualdad de varianzas para dos poblaciones normales. Se toman
muestras independientes n1y n2 , para probar las siguientes hipótesis

H 0 :σ 1=σ 2 H 1 : σ 1 ≠ σ 2
La distribución de probabilidad para realizar la anterior prueba es la F con n1 −1 grados de libertad
en el numerador y n2 −1 grados de libertad en el denominador. La región de rechazo se da en la
tabla
El estadístico de `prueba es:
S 21
F= 2
S2

Ejemplo: El siguiente ejemplo se utilizó para encontrar un intervalo de confianza. Recuerde que
existe dos casos diferentes a tener en cuenta para construir un intervalo: No se conocen las
varianzas poblacionales pero se suponen iguales y No se conocen las varianzas poblacionales pero
se suponen diferentes. Para saber si son iguales o no se debe de hacer la prueba F. Un industrial
que produce cereal inflado ensaya dos procedimientos de mantenimiento preventivo con
máquinas utilizadas para el procedimiento. Lo que se mide es el tiempo en terminar el proceso de
inflado. A continuación se da los resultados obtenidos en minutos

Maquina 1 Maquina 2
X̄ 1 =62 . 4 X̄ 2 =55 . 8
S 1 =3. 71 S 2 =4 . 22
n1 =18 n2 =20
Pruebe si las varianzas poblacionales son iguales o no. Utilice α =0.05
Solución: Se calcula el estadístico de prueba el cual está dado por:
S 21 3.71
F= 2
F= =0.879
S2 4.22
Buscamos el valor de F en la tabla con 17 grados de libertad en el numerador y 19 grados de
libertad en el denominador para α =0.05 el 2.23 Como el valor del estadístico de prueba es menor
al valor encontrado en la tabla de la F se acepta H 0

PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE MEDIAS POBLACIONAL MUESTRAS PEQUEÑAS


Se presentan dos casos: cuando no se conocen las varianzas poblacionales pero se suponen iguales
y cuando no se suponen iguales. Para determinar cuál caso debe de utilizar para probar las
hipótesis, es necesario hacer primero la prueba F y con los resultados obtenidos, se decide cual
caso aplicar. Debido a que las muestras son pequeñas y no se conocen las varianzas poblacionales
pero se pueden estimar a partir de las muestras, se debe de utilizar un estadístico de prueba con la
T, el estadístico se calcula de la siguiente manera:
( X̄ 1− X̄ 2 )− Δ0
T=
1 1
Sp
√ +
n 1 n2

Donde Δ 0 es el valor de las diferencias de medias en la hipótesis nula. El valor de la desviación


conjunta S pse obtiene de la misma manera como se obtuvo para el intervalo de confianza.
Ejemplo: Con los datos del ejemplo anterior, suponga que se desea probar que la maquina 1 se
tarda más de 10 minutos en relación con la maquina 2. Utilice α =0.05
Solución: Se plantea las siguientes hipótesis:
H 0 :μ 1−μ2 ≥10H 1 : μ 1−μ2 <10

Como se probó anteriormente con la prueba F y se llegó a la conclusión de que se puede suponer
las varianzas poblacionales iguales, se calcula el estadístico de prueba de la siguiente forma:

( X̄ 1− X̄ 2 )− Δ0
T=
1 1
Sp
√ +
n 1 n2

(18−1)3.7 12 +(20−1) 4.222 S =3.987


S p=
√ 18+20−2
p

Remplazando los valores se tiene:


( 62.4−55.8 )−10
T= −3.4
1 1 T = 1.295 =−2.625
3.987
√+
18 20

Buscamos en la tabla el valor de t α / 2 ,n +n −2 siendo:n1 +n 2−2=18+20−2=36 grados de libertad y


1 2

α /2=0.025 , de esta manera el valor encontrado es:t 0.025,36=−2.0281


Como el valor del estadístico de prueba es menor que el valor encontrado en la tabla, rechazamos
la hipótesis nula y concluimos que con un nivel de significancia de 0.05 no hay evidencia suficiente
para afirmar que la maquina uno se demora más de 10 minutos en relación a la maquina 2

PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE PROPORCIONES POBLACIONALES


El supuesto de normalidad no es relevante debido a que el tamaño de muestra de las dos
poblaciones debe de ser grande, es decir mayor que 30. Se presentan dos casos, relacionados con
la hipótesis nula: el primero si la diferencia de proporciones es igual a cero y el segundo si la
diferencia de proporciones es diferente de cero. Para el primer caso el estadístico de prueba se da
a continuación:
( ^p1− ^p 2) −0
Z= X1+ X2
1 1 Donde : ^p=
√ ^p q^
( +
n1 n2 ) n1 +n 2
El valor de ^pdebe de considerarse como una proporción conjunta para las dos poblaciones y se
calcula a partir de ( X 1+ X 2)/(n1+ n2 ) siendo X 1 y X 2 la cantidad de elementos de la población uno
y dos respectivamente que cumplen con la característica en cuestión
El segundo caso se presenta cuando la diferencia de proporciones es diferente de cero, entonces
el estadístico de prueba se calcula como sigue:
( ^p1 −^p 2 )−Δ 0
Z=
^p1 q^ 1 ^p 2 q^ 2
√( n1
+
n2 )
Ejemplo: En días pasados se llevó a cabo una campaña publicitaria, por parte del consorcio
hotelero Decamerón, en el centro comercial Único y Unicentro de la ciudad de Pasto. Suponga
que se realiza una encuesta con 1000 personas en cada uno de los centros comerciales,
obteniendo como resultado que Único= ṕ 1=0,18 y Unicentro= ṕ2=0,14 se enteraron de tal
campaña. Determine un intervalo de confianza del 95% para la diferencia de proporciones de
personas que se enteraron de la campaña. Pruebe si existe evidencia para afirmar que la
proporción de personas que se enteraron de la campaña es igual en los dos centros comerciales.

Implementación en STATGRAPHISC

Para ingresar los datos, tal como, se muestra a continuación, en la ventana de aplicación se señala
comparar, dos muestras, prueba de hipótesis, a continuación se despliega el cuadro de dialogo de
pruebas de hipótesis comparación:

Se señala proporciones binomiales, se ingresa los datos de la muestra 1 y de la muestra 2, al igual


que los tamaños de muestra que en este caso son iguales. Damos aceptar y se despliega el cuadro
de dialogo de opciones prueba de hipótesis, en este caso nos interesa saber si la proporción en los
dos centros comerciales son iguales, entonces la hipótesis alterna debe de ser no igual.
Chequeamos el valor del nivel de confianza alpha en este caso 5%
Observe que no es necesario chequear normalidad, puesto que la muestra es grande (mayor que
30) no es pertinente. Los resultados obtenidos se dan a conocer a continuación:

Pruebas de Hipótesis
Proporciones muestrales = 0,18 y 0,14
Tamaños de muestra = 1000 y 1000

Intervalo aproximado de los intervalos de confianza del 95,0% para la diferencia entre proporciones: [0,00791395;
0,0720861]

Hipótesis Nula: diferencia entre proporciones = 0,0


Alternativa: no igual
Estadístico z calculado = 2,43975
Valor-P = 0,0146974
Rechazar la hipótesis nula para alfa = 0,05.

El StatAdvisor
Este análisis muestra los resultados de realizar una prueba de hipótesis relativa a la diferencia de dos proporciones (teta1-
teta2) de muestras provenientes de distribuciones binomiales. Las dos hipótesis a ser evaluadas aquí son:

Hipótesis nula: teta1-teta2 = 0,0


Hipótesis alterna: teta1-teta2 <> 0,0

En la primera muestra de 1000 observaciones, la proporción muestral es igual a 0,18. En la segunda muestra de 1000
observaciones, la proporción muestral es igual a 0,14. Puesto que el valor-P para la prueba es menor que 0,05, puede
rechazarse la hipótesis nula con un 95,0% de nivel de confianza. El intervalo de confianza muestra que los valores de
teta1-teta2 soportados por los datos caen entre 0,00791395 y 0,0720861.

Puesto que el p-valor es menor que el nivel de significancia se debe de rechazar la hipótesis que la
proporción de personas que se enteraron de la campaña en ambos centros comerciales es igual.
Observe que el intervalo de confianza para la diferencia de proporciones no contiene el cero,
puesto que estos valores son positivos podemos llegar a la conclusión que el porcentaje de
personas que se enteraron de la campaña es mayor en el “único”.
Ejemplo: El presidente de Venezuela Nicolás Maduro afirma que está librando una guerra contra
el desabastecimiento, difunde un índice para medir la ausencia de bienes en el comercio. En abril
del presente año este índice subió al 21,3% comparado con el 20,1% del mes anterior una cifra
superior a lo que se considera normal en el país petrolero. ¿Existe evidencia para afirmar que el,
índice ha crecido con relación al índice del mes pasado? Tome en cuenta para el mes de Marzo se
tiene en cuenta los 31 días, mientras que para el mes de Abril se tiene en cuenta treinta días.
Implementación en STATGRAPHISC
H 0 : p 1− p2=0H 1 : p1 −p 2 ≠ 0
Pruebas de Hipótesis
Proporciones muestrales = 0,213 y 0,201
Tamaños de muestra = 31 y 30

Intervalo aproximado del intervalo de confianza del 95,0% para la diferencia entre proporciones: [-0,191315; 0,215315]

Hipótesis Nula: diferencia entre proporciones = 0,0


Alternativa: no igual
Estadístico z calculado = 0,115627
Valor-P = 0,907943
No rechazar la hipótesis nula para alfa = 0,05.

Advertencia: la aproximación normal puede no ser apropiado a para tamaños de muestra pequeños.

El StatAdvisor
Este análisis muestra los resultados de realizar una prueba de hipótesis relativa a la diferencia de dos proporciones (teta1-
teta2) de muestras provenientes de distribuciones binomiales. Las dos hipótesis a ser evaluadas aquí son:

Hipótesis nula: teta1-teta2 = 0,0


Hipótesis alterna: teta1-teta2 <> 0,0

En la primera muestra de 31 observaciones, la proporción muestral es igual a 0,213. En la segunda muestra de 30


observaciones, la proporción muestral es igual a 0,201. Puesto que el valor-P para la prueba es mayor o igual que 0,05, no
puede rechazarse la hipótesis nula con un 95,0% de nivel de confianza. El intervalo de confianza muestra que los valores
de teta1-teta2 soportados por los datos caen entre -0,191315 y 0,215315.
NOTA: esta prueba usa una aproximación normal. Debido a los pequeños tamaños de muestra, esta aproximación puede
no ser válida.
No hay evidencia suficiente para afirmar que el índice ha aumentado en el mes de Abril, por lo
tanto se acepta la hipótesis nula

Ejemplo: Algunos científicos han vinculado la disminución del número de ranas debido a la capa de
ozono. No obstante, la rana arbórea del pacifico parece que produce una enzima que protege los
huevos de la radiación ultravioleta. Se adelantan estudios para determinar la veracidad de esta
aseveración. Un grupo de huevos se protegió de la radiación solar, mientras que otro segundo
grupo se dejó sin protección, los resultados se dan en la siguiente tabla.

Huevos protegidos del sol Huevos sin protección solar


Número total 70 80
Numero de 34 31
eclosiones
Compare las tasas de eclosión de los dos grupos de huevos. Utilice α =0.01
Solución: Debido a que se requiere determinar si hay diferencia o no entre los dos métodos de
eclosión, se debe de plantear las hipótesis de la siguiente manera:

❑ ❑
Calculamos los valores de ^p1 y ^p2
34 31
^p1= =0.4857^p2= =0.3875
70 80

❑ ❑
Calculamos ^p y q^

34+31
^p❑= =0.4333q^ =1− ^p =0.5667
70+80

Remplazando los valores en el estadístico de prueba:

( 0.4857−0.3875 )−0
Z= 0.0982
1 1 Z= Z=1.21
√(0.4333 ×0.5667) ( +
70 80 )
√ 6.577 ×1 0−3
El valor crítico para un nivel de confianza α =0.01para una prueba bilateral es |2.53|, como el
valor del estadístico de prueba es menor al valor crítico entonces concluimos que no hay evidencia
suficiente para afirmar que los métodos de eclosión son diferentes

Ejemplo: Suponga que en el ejemplo anterior se efectuó la investigación pero con dos especies
diferentes de ranas una de ellas es la rana del pacifico y la otra es una especie diferente. La
eclosión de los huevos se efectuó sin ninguna protección de los rayos solares. Los resultados se
dan a continuación:

Huevos rana del pacifico Huevos otra especie


Número total 70 84
Numero de 34 25
eclosiones

Los investigadores creen que la proporción de huevos de la rana del pacifico eclosionados superan
en menos de un 5% a los huevos eclosionados de otra especie. Pruebe si hay evidencia suficiente
para afirmar esto. Utilice α =0.05
Solución: Debido a que se requiere determinar si hay diferencia o no entre los dos métodos de
eclosión, se debe de plantear las hipótesis de la siguiente manera:

H 0 : p 1− p2 <0.05H 1 : p1 −p 2 ≥ 0.05

❑ ❑
Calculamos los valores de ^p1 y ^p2
34 ¿
25 ¿
^p1= =0.4857 q^ 1=1−^p 1=0.5143^p2= =0.2976 q^ 2=1−^p2=0.7023
70 84

Remplazando los valores en el estadístico de prueba tenemos:

( 0.4857−0.3048 )−0.1
Z=
0.1309
0.4857 × 0.5143 0.2976 × 0.7023 Z=
¿
√( 70
¿
+
84 ) √ 6.05667 ×1 0 −3 Z=1.68

Debido a que el valor del estadístico de prueba Z=1.68 es mayor que el valor crítico para la
prueba unilateral con α =0.05 , es de 1.24, entonces rechazamos la hipótesis nula y concluimos
que hay evidencia suficiente para afirmar que el porcentaje de eclosión es al menos un 5% mayor
en las ranas del pacifico
P-valor o Nivel de significancia observado
El P-valor indica la probabilidad de observar un valor de la estadística de prueba que contradice la
hipótesis nula suponiendo que está sea verdadera. El P-valor es una manera fácil de verificar la
aceptación o rechazo de la hipótesis nula, para ello se tiene la siguiente regla:
Si el P-valor es mayor que el nivel de significancia entonces se acepta la hipótesis nula. En caso
contrario se rechaza.
Ejemplo:
Si tenemos un P-valor de: 0.067 Se aceptaría la hipótesis nula en los niveles de significancia de
0.01 y 0.05 ya que el P-valor es mayor que estos, pero la hipótesis nula se rechaza para un nivel de
significancia de 0.1.

IMPLEMENTACIÓN DE LA PRUEBA DE HIPÓTESIS EN EL STATGRAPHICS


Se plantea el siguiente ejemplo para la diferencia de medias con muestras pequeñas
Ejemplo: Se desea comparar dos formulaciones para medir la fuerza de tensión de adhesión de
una clase de cemento. Se presentan las dos formulaciones una con modificación y la otra sin
modificar. Se toma una muestra de diez piezas, para cada una de las formulaciones. Determine si
hay evidencia suficiente para afirmar que las formulaciones son diferentes en cuanto a su
resultado.
Solución: Se ingresan los datos en dos columnas en la ventana de aplicación de la siguiente forma.
Se puede colocar el nombre de cada columna haciendo clip derecho sobre la columna y en la
opción modificar columna se coloca el nombre
Mortero Modificado Mortero Sin Modificar

16,85 17,50
16,40 17,63
17,21 18,25
16,52 18,00
17,04 17,86
16,96 17,75
16,35 18,22
17,15 17,90
16,59 17,96
16,57 18,15
En la ventana de aplicación y buscamos la opción herramientas, damos clip en opción Analizar,
datos continuos, Comparación de dos muestras, Muestras independientes, se despliega el siguiente
cuadro de dialogo:

Los datos se ingresan en dos columnas Muestra 1 Mortero Modificado en la muestra 2 Mortero sin
modificar y damos aceptar y se despliega la ventana de análisis con los siguientes resultados:
Resumen Estadístico
Mortero Modificado Mortero Sin Modificar
Recuento 10 10
Promedio 16,764 17,922
Desviación Estándar 0,316446 0,247916
Coeficiente de Variación 1,88765% 1,3833%
Mínimo 16,35 17,5
Máximo 17,21 18,25
Rango 0,86 0,75
Sesgo Estandarizado 0,164866 -0,367766
Curtosis Estandarizada -1,08822 -0,485929

El StatAdvisor
Esta tabla contiene el resumen estadístico para las dos muestras de datos. Pueden utilizarse otras opciones tabulares, dentro de este
análisis, para evaluar si las diferencias entre los estadísticos de las dos muestras son estadísticamente significativas. De particular
interés son el sesgo estandarizado y la curtosis estandarizada que pueden usarse para comparar si las muestras provienen de
distribuciones normales. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones significativas de la normalidad, lo
que tendería a invalidar las pruebas que comparan las desviaciones estándar. En este caso, ambos valores de sesgo estandarizado se
encuentran dentro del rango esperado. Ambas curtosis estandarizadas se encuentran dentro del rango esperado
Se debe de revisar el resumen estadístico para verificar la normalidad de los datos, en este caso tal
como lo advierte el StatAdvisor no hay desviaciones significativas de la normalidad, luego se
puede aplicar la prueba t porque se trata de muestras pequeñas. No conocemos las varianzas
poblacionales por lo que tenemos que hacer la prueba F para determinar si son las varianzas
poblacionales iguales o no. Esto se puede hacer mediante opciones tabulares. Los resultados son
los siguientes:
Mortero Modificado Mortero Sin Modificar
Desviación Estándar 0,316446 0,247916
Varianza 0,100138 0,0614622
Gl 9 9
Razón de Varianzas= 1,62926
Intervalos de confianza del 95,0%
Desviación Estándar de Mortero Modificado: [0,217662; 0,577706]
Desviación Estándar de Mortero Sin Modificar: [0,170525; 0,452598]
Razones de Varianzas: [0,404684; 6,55938]

Prueba-F para comparar Desviaciones Estándar


Hipótesis Nula: sigma1 = sigma2
Hipótesis Alt.: sigma1 <> sigma2
F = 1,62926 valor-P = 0,47846
No se rechaza la hipótesis nula para alfa = 0,05.
El StatAdvisor
Esta opción ejecuta una prueba-F para comparar las varianzas de las dos muestras. También construye intervalos o cotas de confianza
para cada desviación estándar y para la razón de varianzas. De particular interés es el intervalo de confianza para la razón de varianzas,
el cual se extiende desde 0,404684 hasta 6,55938. Puesto que el intervalo contiene el valor de 1, no hay diferencia estadísticamente
significativa entre las desviaciones estándar de las dos muestras con un nivel de confianza del 95,0%.
También puede ejecutarse una prueba-F para evaluar una hipótesis específica acerca de las desviaciones estándar de las poblaciones de
las cuales provienen las dos muestras. En este caso, la prueba se ha construido para determinar si el cociente de las desviaciones
estándar es igual a 1,0 versus la hipótesis alternativa de que el cociente no es igual a 1,0. Puesto que el valor-P calculado no es menor
que 0,05, no se puede rechazar la hipótesis nula.
NOTA IMPORTANTE: las pruebas-F y los intervalos de confianza mostrados aquí dependen de que las muestras hayan provenido de
distribuciones normales. Para probar esta suposición, seleccione Resumen Estadístico de la lista de Opciones Tabulares y verifique los
valores de sesgo estandarizado y de curtosis estandarizada.
Por defecto se da también el intervalo de confianza para las varianzas, de acuerdo con los
resultados nos damos cuenta que las varianzas son iguales, puesto que el P-valor es superior a los
niveles de confianza (0.1, 0.05, 0.01) Se acepta la hipótesis de igualdad de varianzas. Los
resultados se dan a continuación:
Comparación de Medias
Intervalos de confianza del 95,0% para la media de Mortero Modificado: 16,764 +/- 0,226372 [16,5376; 16,9904]
Intervalos de confianza del 95,0% para la media de Mortero Sin Modificar: 17,922 +/- 0,177349 [17,7447; 18,0993]
Intervalos de confianza del 95,0% intervalo de confianza para la diferencia de medias
Suponiendo varianzas iguales: -1,158 +/- 0,267074 [-1,42507; -0,890926]

Prueba t para comparar medias


Hipótesis nula: media1 = media2
Hipótesis Alt.: media1 <> media2
Suponiendo varianzas iguales: t = -9,10936 valor-P = 3,67808E-8
Se rechaza la hipótesis nula para alfa = 0,05.

El StatAdvisor
Esta opción ejecuta una prueba-t para comparar las medias de las dos muestras. También construye los intervalos, o cotas, de
confianza para cada media y para la diferencia entre las medias. De interés particular es el intervalo de confianza para la diferencia
entre las medias, el cual se extiende desde -1,42507 hasta -0,890926. Puesto que el intervalo no contiene el valor 0, existe una
diferencia estadísticamente significativa entre las medias de las dos muestras, con un nivel de confianza del 95,0%.

También puede usarse una prueba-t para evaluar hipótesis específicas acerca de la diferencia entre las medias de las poblaciones de las
cuales provienen las dos muestras. En este caso, la prueba se ha construido para determinar si la diferencia entre las dos medias es
igual a 0,0 versus la hipótesis alterna de que la diferencia no es igual a 0,0. Puesto que el valor-P calculado es menor que 0,05, se
puede rechazar la hipótesis nula en favor de la alterna.

NOTA: estos resultados asumen que las varianzas de las dos muestras son iguales. En este caso, esa suposición parece razonable, con
base en los resultados de la prueba-F para comparar las desviaciones estándar. Pueden verse los resultados de esta prueba
seleccionando Comparación de Desviaciones Estándar del menú de Opciones Tabulares.
Según los resultados del intervalo de confianza y de la prueba de hipótesis para la diferencia de
medias no hay evidencia suficiente para afirmar que las dos formulaciones producen resultados
similares en cuanto a la fuerza de adhesión del cemento.

BIBLIOGRAFIA
ANDERSON, D. R. SWEENEY D. J. WILLIAMS T. A. “Estadística para Administración y Economía”
2008 Décima edición México Cengage Learning
CANAVOS G.” Probabilidad y Estadística Aplicaciones y Métodos” (1999) Mc Graw-Hill México D.F.
LEVIN J. LEVIN W. “Fundamentos de Estadística en la investigación social” 2006 Segunda edición
Alfa omega grupo editor México D.F.
LEVIN I. RICHARDS, 1996 “Estadística para Administradores” séptima edición México Prentice Hall
LINDGREN B. Statistical Theory Fourth Edition Chapman & Hall New York 1993
MASON, R, LIND, D. Y MARCHAL.W (2001) “Estadística para Administración y Economía. Décima
edición Mc Graw-Hill
MAYORGA A. H. “Inferencia Estadística” Notas de clase. (2003) Universidad Nacional de Colombia
Unibiblos Bogotá D. C.
MENDENHALL W. WACKERLY D. SCHEAFFER (1994) “Estadística Matemática con aplicaciones”
Grupo editorial Iberoamérica México D.F.
MENDENHALL W. (2002) “Estadística para Administradores” grupo editorial Iberoamérica México
D.F.
MONTGOMERY D. Diseño y Análisis de Experimentos, segunda edición, Editorial Limusa México
2003
PÉREZ CÉSAR Estadística Práctica con STATGRAPHICS Prentice Hall Madrid 2002

También podría gustarte