Documentos de Académico
Documentos de Profesional
Documentos de Cultura
UNIVERSIDAD DE NARIÑO
ESTADÍSTICA INFERENCIAL
ESTADÍSTICA INFERENCIAL
También llamada Inferencia Estadística, comprende el conjunto de procedimientos en los cuales
interviene la aplicación de modelos de probabilidad y mediante los cuales se realiza una
afirmación de una población con base en una información producido por muestras. Según Mason
et al. (2000:7) La Estadística Inferencial es: “Conjunto de métodos utilizados para saber algo acerca
de una población, basándose en una muestra”.
Las características propias de una población pueden ser cuantificadas por medidas descriptivas
numéricas llamadas parámetros, la Inferencia estadística se ocupa de hacer inferencias acerca de
estos, ya que las poblaciones normalmente son demasiados grandes, para ello se elige una
muestra representativa con el fin de medir dichas características, el valor obtenido en tal
procedimiento sirve para hacer una aproximación al valor real en la población.
La probabilidad y la estadística van de la mano; debido a que a través de la muestra se está
deduciendo la característica poblacional en estudio, se hace necesario reducir la distancia entre los
resultados obtenidos en la muestra y los valores reales en la población. En otras palabras reducir
la probabilidad de error. Los casos de incertidumbre y toma de decisiones son resueltos por la
Estadística Inferencial, por supuesto apoyada por la probabilidad.
CONCEPTOS BÁSICOS
Población
En la investigación científica se define como la totalidad de elementos sobre los cuales recae la
investigación. A cada elemento se le llama unidad estadística, ésta se le observa o se le somete a
una experimentación, estas unidades son medidas pertinentemente.
Muestra
Es toda parte representativa de la población, cuyas características debe reproducir en pequeño lo
más exactamente posible. Para que sea representativa se debe seleccionar empleando el
muestreo, con la finalidad de que los resultados de esta muestra sean válidos para la población de
la que sea obtenido la muestra.
Parámetro
Los valores de las características o medidas que caracterizan una población son conocidas como
parámetros, las cuales son cantidades indeterminadas constantes o fijas respecto a una condición
o situación que caracteriza a un fenómeno en un momento dado que ocurre en una población.
Se suele representar a un parámetro mediante letras griegas, por ejemplo la media poblacional se
representa mediante μ, la varianza poblacional se representa mediante σ 2 y se leen como media
poblacional y varianza poblacional de la variable aleatoria X . En términos prácticos un parámetro
es un valor que representa una característica objeto de estudio al emplear los valores que se
obtiene de una población
Estadístico
Es un valor de las características objeto de estudio el cual es obtenido a partir de los valores
muestrales. A diferencia de los parámetros, los estadísticos son variables aleatorias porque están
sujetos a la fluctuación de la muestra en relación al valor poblacional que se asume es constante.
Por ejemplo, se puede calcular la media aritmética de la muestra, representado a través del
estadístico X̄ , y utilizarlo como estimación de la media aritmética de la población μ . El valor del
estadístico, depende la muestra elegida y cada muestra puede tener una media aritmética
diferente.
DISTRIBUCIÓN DE PROBABILIDAD NORMAL.
Se dice que la variable aleatoria X se distribuye normal con parámetros: d μ y σ si su función
❑
σ √2 π
Propiedades:
1. Es simétrica respecto a μ
2. La moda y la mediana son ambas iguales a la media
3. Los puntos de inflexión se dan para x=μ−σ y x=μ+ σ
4. Debido a que el área bajo de la curva representa la probabilidad total, esta es igual a 1.
El área debajo de la curva comprendida entre μ−σ y μ+σ es aproximadamente igual a
0,68 del área total; entre μ−2σ y μ+2 σ es aproximadamente igual a 0,95 del área total.
y el μ+3 σ
De igual manera el 98% del área comprendida entre μ−3 σ
χ 21 /v 1
F= 2
χ 2 /v 2
Tiene una distribución F con v1 grados de libertad en el numerador y v 2grados de libertad del
denominador. Es necesaria para comparar varianzas poblacionales normales.
( ^p 1−^p2 )−( p1 −p 2 )
2
Por otra parte es necesario contemplar el cambio que puede ocurrir con la desviación estándar
para poblaciones finitas.
En casos en que n /N ≤ 0.5 se considera que las poblaciones son infinitas, en caso contrario
n /N > 0.5 se considera que la población es finita y el error estándar del estimado se debe del
factor de corrección para poblaciones infinitas √ (N −n)/( N −1)
Suponga que tenemos una población de 100 estudiantes y que queremos determinar el promedio
de la estatura de los mismos, para ello queremos tomar una muestra de 5, lo cual nos da un total
❑ ❑ posibles muestras, de las cuales habrá la misma cantidad de
de al 10 0 C 5=75287520
estimaciones.
Algunas estimaciones es posible que coincidan con el valor de la media poblacional, sin embargo
para una gran cantidad de estas no será el caso. Esto genera un grado de incertidumbre acerca de
que tan confiable es nuestra estimación, lo que nos lleva a formular preguntas como: ¿Cuál será la
probabilidad de que la media de la muestra se aleje o difiera de la media poblacional en
determinada cantidad?
Como veremos más adelante este tipo de inquietudes lo resolveremos por medio de la
distribución de probabilidad de la normal estándar, por supuesto, no sin antes establecer las
condiciones necesarias para situarnos en tal escenario.
Definición La distribución de todas las estimaciones de la media poblacional μ basadas en todas
las muestras posibles que pueden ser generadas se define como la distribución muestral de la
media.
En la distribución de la media muestral se pueden presentar dos casos:
1. Si la población de partida tiene una distribución normal con parámetros μ y σ entonces la
σ
media muestral se distribuye normal con parámetros μ y
√n
2. Si la población de partida no sigue una distribución normal, la distribución muestral de la
media se parece más o tiende a una normal a medida que crece el tamaño de la muestra,
entonces la media muestral se distribuye normal con los parámetros anteriormente
mencionados. La afirmación anterior encuentra su respaldo teórico en el teorema del
límite central, lo cual nos permite calcular probabilidades asociadas a los valores de las
medias cuando se desconoce la distribución poblacional de la cual provienen, siempre y
cuando el tamaño de la muestra sea lo suficientemente grande. Algunos autores plantean
que el parecido a la normal empieza a ocurrir a partir de tamaños iguales o mayores a
treinta.
σ
A la desviación estándar de la media se le conoce también como el error estándar de la
√n
media, observe que el tamaño de la muestra afecta el error estándar, si se desea tener un error
pequeño se debe de aumentar la muestra.
En el marco de la normal estándar se debe de estandarizar el valor de la media muestral de la
siguiente manera:
X̄−μ X̄ −μ
Z= =
σ ^X σ
√n
Ejemplo 1: El coeficiente intelectual de los alumnos de cierto centro especial tiene una
distribución normal con media de 87,2 y una desviación estándar igual a 17.5. Se extrae una
muestra de 25 alumnos:
a. ¿Cuál es la probabilidad de que la media muestral sea mayor a 85?
b. ¿Qué valor debería tener la media muestral para que la probabilidad de ser hallada en esa
muestra sea máxima de 0,85?
c. ¿Cuál es la probabilidad de que la media de la muestra no difiera de la población real en
no más de 1,8 puntos
Solución: Se debe de calcular la probabilidad de que P( X̄ > 85) para esto debemos de
estandarizar:
X̄−μ 85−μ
P( X̄ > 85)=P
(σ
√n
>
σ
√n )
85−87,2
P( X̄ > 85)=P Z>
( 17,5
√ 25 )
Observe que el error estándar de la media es el cociente entre 17,5 y la raíz de 25, tomando un
valor igual a 3,5 entonces:
P( X̄ > 85)=P ( Z >−0,6285 )
Una vez obtenida la estandarización procedemos a encontrar la probabilidad con el uso del
paquete STATGRAPHICS de la siguiente manera:
En la ventana de aplicación buscamos la opción herramientas, damos clip en distribuciones de
probabilidad, se despliega el siguiente cuadro de dialogo:
En el cuadro de la izquierda debemos de asegurarnos que tengan media igual a cero y desviación
estándar igual a 1, si se quiere trabajar con la normal estándar de igual manera en el cuadro de la
derecha como queremos encontrar la probabilidad de que z sea mayor a -0,6285 marcamos el
área límite superior y en el límite superior -0,6285 obteniendo:
Distribución: Normal
Media Desv. Est.
0 1
El siguiente resultado: Área superior -0,6285 = 0,735163, por tanto la probabilidad de que
P( X̄ > 85)=P ( Z >−0,6285 ) =0,735163, los resultados también arrojan una gráfica de la normal
indicando la probabilidad buscada
Hay otra forma para poder acceder a las probabilidades, la cual emplearemos para resolver el
siguiente punto:
¿Qué valor debería tener la media muestral para que la probabilidad de ser hallada en esa muestra
sea como máximo de 0,85?
En la ventana de aplicación buscamos la opción graficar, damos clip en distribuciones de
probabilidad, se despliega el siguiente cuadro de dialogo:
Marcamos donde está la normal y damos aceptar, posteriormente se despliega otro cuadro,
vemos especificar los valores de la media y la desviación estándar, si se desea trabajar con la
normal estándar se debe de colocar en opciones Normal 0 y 1 en caso contrario podemos ingresar
el valor de la media muestral: 87,2 y de la desviación estándar de la muestra: en este caso el valor
de la desviación estándar sobre la raíz cuadrada del tamaño de la muestra, es decir 17.5 dividido
entre cinco o sea 3.5, damos aceptar
FDA Inversa
Distribución: Normal
El StatAdvisor
Esta ventana encuentra los valores críticos para la Distribución Normal. Pueden especificarse hasta 5 áreas de cola. El
valor crítico se define como el mayor valor para la Normal tal que la probabilidad de no exceder ese valor no excede el
área especificada. Por ejemplo, el resultado indica que, para la primera distribución especificada, 91,12752555 es el valor
más grande tal que la probabilidad de no exceder 91,12752555 es menor o igual a 0,85
0,3
densidad
0,2
0,1
0
-5 -3 -1 1 3 5
x
ṕ q́ pq
σ ^p=
√ √ n
≅
n
Ejemplo: El Wall Street Journal informa acerca de una encuesta con 313 jóvenes, de 14 a 22 años
de edad hijos de los altos ejecutivos de las corporaciones más importantes de USA. Al pedir que
identificaran el mejor aspecto de ser uno de este grupo privilegiado, el 55% mencionó ventajas
materiales y financieras. Describir la distribución de muestreo. (Tomado de Estadística para
Administradores de William Mendenhall)
ṕ q́ 0,55× 0,45
σ ^p=
√ √
n
≅
313
=0,028
ṕ− p 0,55−0,5
Z= = =1,79
pq 0,5 ×0,5
√ √
n 313
+
n1 n2 √
Ejemplo: Una compañía quiere muestrear y comparar el promedio de días de incapacidad por
enfermedad, por año para dos clases de empleados: los que tienen menos de cinco años de
servicio y los que tienen más de diez años, se toman muestras de 100 por cada grupo y se obtiene
las desviaciones estándar de 8.2 y 5.3 días respectivamente.
¿Cuál es la probabilidad de que la diferencia de medias de la muestra difiera de la diferencia en los
promedios poblacionales menos de un día?
Solución: Se plantea la siguiente desigualdad:
( X̄ 1− X̄ 2)−(μ1−μ 2) 1
[√ ]
−1
P < <
σ 21 σ 22 σ 21 σ 22 σ 21 σ 22
+
n1 n2 √ +
n1 n 2 √ +
n 1 n2
−1 1
P
[√ 2
8. 2 5.3
+
100 100
2
<Z <
√ +
2
100 100
]
8. 2 5.32 P [−1.06<Z <1.06 ] =0.710857
n1
+
√ n2
Ejemplo: (Tomado de Mendenhall) El Wall Street Journal informa sobre una encuesta con 250
gerentes de compras, la cual pretende indicar un repunte en la economía. De los compradores que
participaron, el 25% reportó más pedidos nuevos en enero, comparado con el 19% de diciembre.
¿Indica esta diferencia en proporciones muestrales que hay diferencia real entre los meses de
diciembre y enero? Para aclarar la cuestión, obtenga la probabilidad de que las proporciones
muestrales puedan diferir en 6% o más cuando en realidad no hubo cambio alguno en las
proporciones poblacionales de diciembre a enero.
Solución: Llamamos p1 la proporción en enero y p2 la proporción en diciembre. Si en realidad no
hubo cambio alguno entonces p1− p2=0, como en realidad no conocemos estas proporciones,
debemos de trabajar con las obtenidas en las muestras:
Debemos de encontrar:
2
√ n
+
n
σ ( p − p )=
1 2
√
250
+
250
( p − p )=0,037
1 2
Estandarizamos:
Distribuciones en el muestreo
Distribución: Normal
Media Desv. Est.
0 1
Está probabilidad indica que si las proporciones de los gerentes que reportan un incremento en las
compras fueran iguales en enero y diciembre, la probabilidad de que las proporciones de las
muestras puedan diferir en 0.06 o más es de 0,105232
a1 a2
b 1= b 2=
9 9
Nos situamos en la ventana de aplicación y buscamos la opción de distribuciones de probabilidad
y damos clip en la chi- cuadrada, buscamos en opciones de tabla o tabulares y damos clip en la
opción de distribuciones acumuladas inversas, en opciones de ventana colocamos la cantidad de
0,95 en la parte de abajo 0,05. En opciones de análisis entramos los grados de libertad pertinentes.
Obtenemos los siguientes resultados:
Función de Distribución Acumulada Inversa
Distribución: Chi-Cuadrada
El StatAdvisor
Esta ventana encuentra los valores críticos para la Distribución Chi-Cuadrada. Pueden especificarse hasta 5 áreas de cola. El valor
crítico se define como el mayor valor para la Chi-Cuadrada tal que la probabilidad de no exceder ese valor no excede el área
especificada. Por ejemplo, el resultado indica que, para la primera distribución especificada, 16,919 es el valor más grande tal que la
probabilidad de no exceder 16,919 es menor o igual a 0,95.
❑ ❑
Por lo que los números a 1 y a2son 3,32511 y 16,919 respectivamente. Remplazando obtenemos
❑ ❑
los valores de b 1 y b 2iguales a 0,369 y 1,880 respectivamente
Probabilidad entre a1 y a2
Probabilidad = 0,900006
0,12 G. L.
9
0,1
0,08
densidad
0,06
0,04
0,02
0
0 3 6 9 12 15 18 21 24 27 30 33 36 39 42
x
La anterior gráfica muestra el área sombreada entre los valores de 3,32511 y 16,919 que
corresponde a una probabilidad de 0,90 aproximadamente.
ESTIMACIÓN DE PARÁMETROS
El estimador por intervalo utiliza los datos obtenidos en la muestra para calcular el intervalo
dentro del cual debe de estar el parámetro objetivo, tratando que este sea lo más estrecho
posible. Debido a que los valores calculados dependen de la muestra, es posible que el parámetro
objetivo no esté dentro del intervalo. Lo anterior nos lleva a que tengamos que construir un
estimador por intervalo que genere un espaciado lo más angosto posible y que garantice que el
parámetro objetivo se localice dentro de él.
Un método empleado en la construcción de intervalos se denomina método del pivote, el cual es
función de las mediciones de la muestra y el parámetro es la única cantidad desconocida.
Se debe de tener una distribución de probabilidad que no dependa del parámetro. Si conocemos
la distribución de probabilidad de la cantidad pivote se puede utilizar la siguiente lógica
Encontrar un intervalo con la probabilidad de que el parámetro objetivo se encuentre dentro de él
sea igual 1−α , en consecuencia α será la probabilidad de no estar en ese intervalo. Si nos
situamos en el campo de la normal estándar, el problema se reduce a seleccionar dos valores
extremos en esa distribución tal que:
P −Z α ≤ Zθ^ ≤ Z α =1−α
[ 2 2 ]
Observe que:
^
θ−θ
Zθ^ =
σ ^θ
Remplazando este valor en la desigualdad se tiene:
^
θ−θ
[
P −Z α ≤
2
σ θ^
≤ Z α =1−α
2
]
^
P −Z α σ θ^ ≤ θ−θ ≤ Z α σ ^θ =1−α
[ 2 2 ]
Restandoθ^ y multiplicando por -1 y cambiando el orden de la desigualdad tenemos:
^
P θ−Z ^
α σ ^θ ≤ θ ≤ θ+ Z α σ ^θ =1−α
[ 2 2 ]
Obtenemos el siguiente intervalo:
θ^ ± Z α σ ^θ
2
A la probabilidad 1−α o probabilidad de que un intervalo contenga el parámetro objetivo, se le
conoce como coeficiente de confianza, mientras que al valor α se conoce como nivel de confianza
de igual manera, la cantidad Z α σ θ^ se le conoce como margen de error o cota para el error de
2
estimación, o error máximo admisible. Como esta última es función del error estándar del
estimado, si queremos que este sea pequeño debemos de aumentar el tamaño de la muestra.
Cabe anotar que en algunas ocasiones se hace necesario encontrar intervalos unilaterales, para
ese propósito se utiliza los límites inferior o superior según sea el caso.
La siguiente tabla muestra los supuestos y los intervalos de confianza para algunos de los
parámetros más conocidos.
σ2 ( ,
χ 2α / 2, n−1 χ 21−α / 2 ,n−1 )
n1 , n2 σ 12❑ σ 22 σ 21 σ 22
μ1−μ 2 ❑
grandes, independientes
n1 , n2
1❑ 2
σ 12❑ σ 22
desconocidas.
X 1 −X 2 ± Z α / 2 ⋅ +
n1 n2√ 1 1
μ1−μ 2
❑
iguales
pequeñas, independientes desconocidas pero X 1 −X 2 ±t α / 2 ,n +n −2 ⋅S p
1 2
(n1−1) S +( n2−1)S22
2
√ +
n1 n 2
S p=
√ 1
n 1+ n2−2
n1 , n2 σ 12❑ σ 22 S21 S 22
❑
diferentes
pequeñas, independientes desconocidas, pero
X 1 −X 2 ±t α / 2 ,V ⋅
S S22
2
√ 2
+
n1 n2
μ1−μ 2
V=
( 1
+
n 1 n2 )
2 2
S 21 S22
( ) ( )
n1
+
n2
n1−1 n2−1
Normalidad, muestras pareadas n pequeña S
μd =μ1−μ 2 d ±t α /2 ,n−1 d
√n
p q p q
p1− p2
Experimento binomial, muestras grandes independencia
√
^p1− ^p2 ± Z α / 2 ⋅ 1 1 + 2 2
n1 n2
Las siguientes tablas muestran un resumen de los valores de para la construcción de intervalos
bilaterales y unilaterales:
Observe que en algunas ocasiones, se hace necesario utilizar otras distribuciones como la t- de
Student y la Chi-cuadrada. La construcción de estos intervalos sigue la misma lógica utilizada para
construir intervalos utilizando la normal estándar. La construcción del intervalo utilizando la chi-
cuadrada se dará a conocer cuando se trate los intervalos para la desviación estándar
Error Máximo Admisible: También conocido como cota de error, se conoce a la cantidad Z α /2 ⋅σ θ́
se puede interpretar como la mayor diferencia entre el estimador y el parámetro objetivo. Se
puede observar que es el error máximo admisible la cantidad que se suma o sustrae del estimado
para obtener el intervalo de confianza.
Ejemplo 3: Se registraron los tiempos empleados por 64 clientes seleccionados al azar para hacer
transacciones en un cajero electrónico. La media y la varianza obtenidas fueron de 33 segundos y
256 respectivamente. Estime el promedio real μ, del tiempo utilizado por las personas en el
cajero, con un coeficiente de confianza de 90%.
Solución: En este caso el parámetro objetivo es μmientras que X̄ =3 3❑ ,❑ σ =√ 256=16 n=64 ,
la desviación estándar poblacional se desconoce por lo que utilizamos el valor de Scomo su valor
estimado. Entonces el intervalo de confianza, con un nivel de confianza del 90% es:
S
X̄ ± Z 0,05
√n
Vamos a construir un intervalo de confianza bilateral, remplazando los valores correspondientes y
obtenemos:
16
33 ±1.645 33 ±3.29
√ 64
El promedio real del tiempo utilizado por las personas en un cajero electrónico con un coeficiente
de confianza del 90% está comprendido entre:
[ 29.71 ,❑ 36.29 ]
Observe que el error máximo admisible es de 3,26; si se desea reducir este error se debe de
aumentar el tamaño de la muestra. Supongamos que queremos reducir el error a 1 entonces:
σ 16
Z α /2 ⋅
=1.645
√n √n
16 1.645 ×16
1=1.645 √ n=
√n 1
n=¿
S
X ± t α /2 , n−1 ⋅
√n
Donde t α / 2 ,n−1es él valor de t con n-1 grados de libertad.
Ejemplo 4: El departamento de recursos humanos de cierta empresa da lugar a un proceso de
selección de personal para cubrir las vacantes de un puesto administrativo en diferentes sedes. Se
desea conocer el promedio de los puntajes que puedan tener los aspirantes a dicho cargo. Para
ello se selecciona 10 aspirantes y se les somete a un test obteniendo los siguientes resultados:
Aspirante 1 2 3 4 5 6 7 8 9 10
Puntaje 83,2 99,1 75,5 95,6 90,3 89,6 80,2 93,7 97,9 99,0
Mediante un intervalo de confianza estime el puntaje medio de los aspirantes, con un nivel de
confianza del 5%
Solución:
Se trata de muestras pequeñas, con varianza desconocida, por lo tanto se debe de utilizar la t- de
student
Implementación en el STATGRAPHICS:
Ingresamos los datos en la ventana de aplicación en una sola columna, podemos nombrar la
columna con el nombre de puntaje y verificamos que los datos sean numéricos. Esto se hace
dando clip derecho y seleccionando la opción de modificar columna, damos aceptar., tal como se
puede observar en el siguiente cuadro
El StatAdvisor
Esta tabla muestra los estadísticos de resumen para Puntaje. Incluye medidas de tendencia central, medidas de
variabilidad y medidas de forma. De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las
cuales pueden utilizarse para determinar si la muestra proviene de una distribución normal. Valores de estos estadísticos
fuera del rango de -2 a +2 indican desviaciones significativas de la normalidad, lo que tendería a invalidar cualquier
prueba estadística con referencia a la desviación estándar. En este caso, el valor del sesgo estandarizado se encuentra
dentro del rango esperado para datos provenientes una distribución normal. El valor de curtosis estandarizada se
encuentra dentro del rango esperado para datos provenientes de una distribución normal.
El StatAdvisor
Este panel muestra los intervalos de confianza del 95,0% para la media y la desviación estándar de Puntaje. La
interpretación clásica de estos intervalos es que, en muestreos repetidos, estos intervalos contendrán la media verdadera o
la desviación estándar verdadera de la población de la que fueron extraídas las muestras, el 95,0% de las veces. En
términos prácticos, puede establecerse con 95,0% de confianza, que la media verdadera de Puntaje se encuentra en algún
lugar entre 84,4612 y 96,3588, en tanto que la desviación estándar verdadera está en algún lugar entre 5,71988 y 15,1814.
Ambos intervalos asumen que la población de la cual proviene la muestra puede representarse por la distribución normal.
Mientras que el intervalo de confianza para la media es bastante robusto y no muy sensible a violaciones de este supuesto,
los intervalos de confianza para la desviación estándar son muy sensibles. Si los datos no provienen de una distribución
normal, el intervalo para la desviación estándar puede ser incorrecto. Para verificar si los datos provienen de una
distribución normal, seleccione Resumen Estadístico de la lista de Opciones Tabulares, o escoja Gráfica de Probabilidad
Normal de la lista de Opciones Gráficas.
El error máximo admisible es de 5,94876 y el intervalo para la media es de 84,4612- 15,1814.
Observe que no tuvimos necesidad de especificar que necesitábamos la t- de student, el programa
tomo la decisión haciendo el intervalo con la distribución correcta. Por defecto también sale el
intervalo de confianza para la desviación estándar, el programa construye el intervalo de confianza
utilizando la distribución Chi- Cuadrada. Si damos clip derecho aparece el siguiente cuadro de
dialogo y podemos encontrar tipos de intervalos con diferentes niveles de confianza.
El límite superior indica que el parámetro poblacional puede tomar un valor superior al 7%, por lo
tanto es recomendable que pare la producción.
INTERVALO DE CONFIANZA DE MUESTRAS GRANDES PARA LA DIFERENCIA DE MEDIAS
POBLACIONALES.
Se presentan dos casos: Se conocen las desviaciones estándar poblacionales y cuando no se
conocen las desviaciones estándar poblacionales. En este caso se puede usar las desviaciones
estándar de las muestras en la fórmula del intervalo de confianza,
σ 21 σ 22
√
X 1 −X 2 ± Z α / 2 ⋅ +
n1 n2
Supuestos: Las dos muestras son aleatorias y son escogidas de forma independiente de las
poblaciones objetivo. Por lo tanto la disposición de una muestra no afecta la disposición de la otra
muestra.
Los tamaños de las muestras deben de ser lo suficientemente grande para poder aplicar el
teorema del límite central.
V=
( +
n 1 n2 )
2 2
S 21 S22
( ) ( )
n1
+
n2
n1−1 n2−1
S21 S 22
El intervalo está dado por: X 1 −X 2 ±t α / 2 ,V ⋅
√ +
n1 n2
Además se debe de escoger las muestras de forma independiente de dos poblaciones, se supone
que las muestras se seleccionaron de poblaciones relativamente normales.
Ejemplo 8: Un industrial que produce cereal inflado ensaya dos procedimientos de mantenimiento
preventivo con máquinas utilizadas para el procedimiento. Lo que se mide es el tiempo en
terminar el proceso de inflado. A continuación se da los resultados obtenidos en minutos
Maquina 1 Maquina 2
X̄ 1 =62 . 4 X̄ 2 =55 . 8
S 1 =3. 71 S 2 =4 . 22
n1 =18 n2 =20
Encuentre el intervalo de confianza para la diferencia de medias con un nivel de significancia de
0.05
Solución: Verificamos los supuestos según la tabla para intervalos, vemos que se trata de nuestras
pequeñas, no se conoce las varianzas pero se las pueden usar las desviaciones muestrales para
estimarlas, por lo tanto se debe de utilizar la distribución t de Student. No sabemos si las muestras
de la población son iguales o no, para esto se hace necesario utilizar la prueba F como lo veremos
en la sección correspondiente a prueba de hipótesis, por el momento asumiremos varianzas
iguales. El intervalo de confianza para la diferencia de medias se construye de la siguiente manera.
1 1 (n1−1) S21 +( n2−1)S22
X 1 −X 2 ±t α / 2 ,n +n −2 ⋅S p
1 2
√ + donde : S p=
n1 n 2 √
n 1+ n2−2
1 1
(62.4−55.8)± 2.0281 ×3.987
√ + 6.6 ± 2.627[ 3.97 3 , 9.227 ]
18 20
❑ ❑
2
S S 22
2 2
3.7 12 4.2 22
v=
( ) (1
+
n1 n2 ) =
18
+
20
=
2.74
=29.78 ≅ 30
S 2 2
S2 2
3.7 1 2
4.2 2 2 0.045+0.047
( ) ( ) ( )( )
n1
+
1 2
n2 18
+
20
n1 −1 n2−1 17 19
Año 0,99 1,2 1,67 1,46 0,9 1,77 1,65 1,60 1,5 1,78 1,66 1,35
2012 1 8 9
Año 0,89 1,1 1,69 1,78 1,0 1,46 1,54 1,75 1,6 1,70 1,68 1,57
2013 7 6 7
Encuentre un intervalo de confianza para la diferencia de promedios real entre los dos periodos,
con un nivel de confianza de 5%
Implementación en el STATGRAPHICS Ingresamos los datos en dos columnas, una para cada
periodo, con la opción modificar columna verificamos que la variable sea numérica, nombramos
cada columna. Posteriormente en la ventana de aplicación señalamos comparar, dos muestras,
muestras independientes, tal como se muestra en la siguiente gráfica:
Posteriormente se despliega el cuadro de dialogo para ingresar los datos, Los datos se deben de
ingresar en dos columnas o en columnas de códigos y de datos, en este caso señalamos la opción
dos columnas de datos
Una vez demos aceptar se despliega la siguiente tabla, señalamos resumen estadístico para
verificar si se cumple con el supuesto de normalidad, y comparación de medias para poder
obtener el intervalo de confianza
El StatAdvisor
Esta tabla contiene el resumen estadístico para las dos muestras de datos. Pueden utilizarse otras opciones tabulares,
dentro de este análisis, para evaluar si las diferencias entre los estadísticos de las dos muestras son estadísticamente
significativas. De particular interés son el sesgo estandarizado y la curtosis estandarizada que pueden usarse para
comparar si las muestras provienen de distribuciones normales. Valores de estos estadísticos fuera del rango de -2 a +2
indican desviaciones significativas de la normalidad, lo que tendería a invalidar las pruebas que comparan las
desviaciones estándar. En este caso, ambos valores de sesgo estandarizado se encuentran dentro del rango esperado.
Ambas curtosis estandarizadas se encuentran dentro del rango esperado.
Los resultados del sesgo estandarizados para los dos periodos indican que se cumple con el
supuesto de normalidad.
A continuación se dan los resultados del intervalo para cada periodo, también para la diferencia de
medias de los dos periodos. Cabe señalar que el intervalo de confianza para la diferencia de
medias fue construido con el supuesto de varianzas iguales, tal como veremos más adelante para
tomar esta decisión es necesario hacer una prueba de hipótesis.
El error máximo admisible para este caso es de 0,244783, por otra parte debido a que la
estimación por intervalos se encuentra entre -0,265617 y 0,22395, conteniendo el, cero es de
esperar que el valor de las acciones se ha mantenido igual en los dos periodos.
Comparación de Medias
Intervalos de confianza del 95,0% para la media de Precio Acción 2012: 1,47583 +/- 0,179515 [1,29632; 1,65535]
Intervalos de confianza del 95,0% para la media de Precio Acción 2013: 1,49667 +/- 0,187786 [1,30888; 1,68445]
Intervalos de confianza del 95,0% intervalo de confianza para la diferencia de medias
Suponiendo varianzas iguales: -0,0208333 +/- 0,244783 [-0,265617; 0,22395]
Cuando a una misma unidad experimental se aplica dos tratamientos y se desea saber el cambio
producido en la aplicación de los tratamientos. Generalmente este tipo de pruebas tiene un antes
y un después, se producen entonces n pares de observaciones, de tal manera que cada
observación de antes esta pareada con una observación de después. La diferencia entre n pares de
observaciones está representada por:d 1 , d 2 , ... , d n la media de las diferencias de los pares y la
❑ ❑
desviación estándar para la diferencia de los pares se representan por: d̄ y Sd respetivamente, la
mayoría de veces no se conoce σ d por lo que se hace necesario utilizar Sd .
Además se supone que la población de las diferencias apareadas tiene una distribución normal.
Los intervalos están dados tanto para muestras grandes y muestras pequeñas, utilizando la
distribución normal y la distribución t- de Student según sea el caso tal como se presenta a
continuación:
σd σd
d̄ ± Z α / 2 (√ )
n Y d̄ ±t α /2 , n−1
❑ ❑
(√ )
n
Ejemplo: Algunos investigadores médicos creen que la exposición al polvo de brácteas de algodón
induce enfermedades respiratorias en trabajadores del campo. Se sacan muestras a seis
trabajadores se incuban con diferentes concentraciones de GBE. Después de un periodo corto se
mide el nivel de AMP cíclico (una medida de la actividad celular expresada en pico moles por
millón de células) en cada muestra de sangre. Los datos se dan en la siguiente tabla (observe que
se tomó una muestra de sangre de cada trabajador; una alícuota se expuso a una dilución salina
amortiguadora y la otra al GBE)
A 8.8 4.4
B 13.0 5.7
C 9.2 4.4
D 6.5 4.1
E 9.1 4.4
F 17.0 7.9
Solución: Se encuentra d el cual es la diferencia entre las dos concentraciones, los resultados se
dan en la siguiente tabla:
TRABAJADO
A B C D E F
R
Sd 2.16
d̄ ±t α /2 ❑ ❑
, 5
5.45 ±2.571 5.45 ±2.267
√n √6
Antes 34 35 46 42 41 46 53 57 33 41 60 35 35 42 47 42 42 39
Despué 49 48 50 50 51 46 50 50 48 38 51 49 50 51 48 50 51 52
s
Encuentre un intervalo de confianza para la diferencia de medias con un nivel de confianza del
5%.
El StatAdvisor
El sesgo estandarizado y la curtosis se encuentran dentro del rango -2, 2 por tanto se cumple el
supuesto de normalidad.
Intervalos de Confianza para Antes - Después
Intervalos de confianza del 95,0% para la media: -6,22222 +/- 3,93994 [-10,1622; -2,28228]
Intervalos de confianza del 95,0% para la desviación estándar: [5,94519; 11,8775]
El intervalo de confianza está desde -10,1622 , -2,28228, debido a que el intervalo no contiene el
cero, se puede afirmar que hay diferencias en el grupo antes y después de la intervención,
además como el intervalo tiene signo negativo, se puede afirmar que los puntajes obtenidos
después de la intervención son mayores.
Se supone que las muestras de las dos poblaciones tienen tamaño grande es decir igual o mayor
que 30, para que la aproximación sea válida.
❑ ❑ ❑ ❑ ❑ ❑ ❑
Se sustituye los valores de ^p1 , q^ 1 y ^p 2 , q^ 2 por los parámetros poblacionales respectivos
para el cálculo de σ ^p −^p . El intervalo está dado por:
1 2
p1q1 p2q2
^p1− ^p2 ± Z α / 2 ⋅
√ n1
+
n2
❑ ❑
Donde ^p1 y ^p2son obtenidas por medio de la muestra.
Ejemplo: Se lleva a cabo una investigación con pacientes que padecen gastritis. Se piensa que la
bacteria helicobacter Pilori está asociada a pacientes con gastritis y ataca de igual manera a
hombres y mujeres que padecen esta enfermedad. Para ello se toma 97 pacientes hombres y 115
mujeres los cuales padecen gastritis y que fueron sometidos a un examen paras detectar la
presencia de la bacteria, obteniendo los siguientes resultados: 63 hombres y 71 mujeres
resultaron positivos para la presencia de dicha bacteria. Obtenga un intervalo de confianza con un
nivel de confianza α =0.01 para la diferencia de proporciones poblacional:
Solución: Llamamos población uno a los hombres y población dos a las mujeres, encontramos los
❑ ❑
valores de ^p1 y ^p2:
x 1 63 ¿ x 2 71 ¿
^p1= = =0.65 q^ 1=1−0.65=0.35 ^p2= = =0.618 q^ 2 =1−0.618=0.382
n1 97 n 2 115
❑ ❑ ❑ ❑ ❑ ❑ ❑
Se sustituye los valores de ^p1 , q^ 1 y ^p 2 , q^ 2 por los parámetros poblacionales respectivos
para el cálculo de σ ^p −^p , el valor de Z α /2 =Z 0.005=2.58. Sustituyendo los valores tenemos:
1 2
Con un nivel de confianza del 99% se puede decir que la diferencia real hombres y mujeres
infestados con la bacteria helicobacter Pilori está entre -0.138 y 0.202. Observe que el intervalo de
confianza contiene el valor de cero lo que es un claro indicio que la proporción de hombres y
mujeres afectados con esa bacteria es igual.
INTERVALO DE CONFIANZA PARA LA VARIANZA POBLACIONAL
La varianza no se distribuye normal, la estadística pivote para su distribución es una χ 2 con n−1
grados de libertad, cabe recordar que la distribución Chi- Cuadrada no es simétrica y es mayor que
cero. Por lo anterior si queremos ubicar un área en la cola inferior de la distribución debemos
2 2 2
encontrar χ 1−α donde P( χ > χ 1−α )=1−α . La estadística pivote para χ 2está dada por:
P( χ 21−α ≤ χ 2 ≤ χ 2α / 2)=1−α
(n−1) S2
Como χ 2es , sustituyendo este valor en la expresión anterior tenemos:
σ2
(n−1) S2
P χ
[ 2
1−α ≤
σ 2 ]
≤ χ 2α /2 =1−α
1 χ 21−α
χ 2α /2
P
( ≤ ≤
(n−1)S2 σ 2 (n−1) S 2
=1−α
)
Invirtiendo los términos:
(n−1)S2 2
2 (n−1)S
P
( χ 2α / 2
≤ σ ≤
χ 21−α
=1−α
)
Entonces el intervalo de confianza está dado por:
(n−1) S2 2 ( n−1) S2
≤σ ≤
χ 2α /2 χ 21−α
Ejemplo: Se llevó a cabo una investigación con el objeto de determinar la variación del precio de
las acciones de ISA. Los datos representan 10 mediciones de los valores alcanzados en los diez
últimos meses y se muestran en la siguiente tabla:
Serie 1 2 3 4 5 6 7 8 9 10
Concentració 5506 5507 5500 5497 5506 5527 5504 5490 5500 5497
n
Utilice la anterior información para obtener un intervalo de confianza para la varianza poblacional
con α =0.05.
Solución: De los datos anteriores calculamos la desviación estándar de la muestra S=9.82
❑ ❑ ❑
entonces S2=96.48, grado s d e liberta d =n−1=(10−1)=9
valores tenemos:
(n−1) S2 2 ( n−1) S2 9 ×(96.48) 2 9(96.48)
2
≤σ ≤ 2 ≤σ ≤ [ 45.6 4❑ ,❑321.5 ]
χ α /2 χ 1−α 19.0228 2.70039
Se despliega el siguiente cuadro de dialogo, ingresamos precio acciones en datos y damos aceptar
Los valores de la curtosis y el sesgo se encuentran dentro de los límites por lo tanto se cumple el
supuesto de normalidad. El intervalo de confianza para la deviación estándar se encuentra entre
6,75652 y 17,9327.
Intervalos de Confianza para Precio Acciones
Intervalos de confianza del 95,0% para la media: 5503,4 +/- 7,02688 [5496,37; 5510,43]
Intervalos de confianza del 95,0% para la desviación estándar: [6,75652; 17,9327]
PRUEBA DE HIPÓTESIS
Existe otra forma de hacer inferencias respecto a los parámetros poblacionales desconocidos, esta
se centra en contrastar hipótesis referentes a sus valores. El método a seguir es proponer una
teoría, planteando hipótesis respecto a los valores específicos de los parámetros poblacionales y
después se prueba esa teoría respecto de la observación, si las observaciones se contraponen a la
teoría, la hipótesis debe de rechazarse. Algunos autores prefieren llamar a la técnica de contrastar
hipótesis juzgamiento de hipótesis, la razón es que lo que se hace es buscar evidencia suficiente
acerca de la veracidad de los valores de los parámetros poblacionales.
HIPÓTESIS ESTADÍSTICAS
Para llegar a tomar decisiones, conviene hacer determinados supuestos o conjeturas acerca de las
poblaciones que se estudian, las cuales se denominan hipótesis estadísticas. En muchos casos se
formulan las hipótesis estadísticas con el solo propósito de rechazarlas o invalidadas.
La hipótesis es una conjetura acerca de una situación que se está estudiando, y que es susceptible
de ser probada a partir de la información obtenida en una muestra representativa de la población.
En los experimentos comparativos simples, generalmente hacen referencia a los efectos de los
tratamientos en la variable respuesta.
La metodología a seguir consiste en formular dos hipótesis mutuamente excluyentes de tal
manera que la afirmación de una signifique la negación de la otra, a estas se les conoce como:
Hipótesis nula: Corresponde a la afirmación que se hace sobre un parámetro poblacional, se
denota como H 0
Hipótesis Alterna: Es la que conlleva a realizar la investigación, su afirmación involucra la negación
de la hipótesis nula, se denota como H 1
Para probar una hipótesis estadística se debe de tomar una muestra aleatoria, calcular un
estadístico de prueba para establecer si se está en posición de rechazar o aceptar dicha hipótesis.
Por conveniencia se rechaza o se acepta H 0. La valides de la hipótesis nula depende del estadístico
de prueba, por lo que se hace necesario puntualizar el conjunto de valores de este que conduzcan
al rechazo de H 0, a este conjunto de valores se le denomina región de rechazo de la prueba.
Región de rechazo: Definimos la región de rechazo al área que indica los valores del estadístico de
prueba que implicarían el rechazo de la hipótesis nula. De igual manera definimos el valor crítico
como el valor de Z que separa la región de aceptación y la región de rechazo.
Debido a que la prueba se centra en aceptar o rechazar la H 0 en concordancia con la hipótesis H 1,
entonces existe solo dos posibilidades de cometer errores: Rechazar H 0cuando esta es verdadera Y
aceptar H 0 cuando esta es falsa. Al primer error se le conoce como error tipo I y al segundo se le
conoce como error tipo II, estas probabilidades están dadas por las siguientes probabilidades
condicionadas:
Lo anterior nos lleva a definir un concepto no menos importante al que denominamos potencia
de la prueba el cual está dado por:
Muestras grandes,
μ1−μ 2 ≠ Δ0
μ1−μ 2> Δ0
√ +
n 1 n2
( X̄ 1− X̄ 2 )−Δ 0
|Z|≥ z α / 2
2 2 Z= Z ≥ zα Z ≤ zα
μ1−μ 2=Δ 0 σ . , .σ desconocidas, μ1−μ 2< Δ0 S21 S22
1 2
independencia
Normalidad,
μ1−μ 2 ≠ Δ0
√+
n1 n2
( X̄ 1− X̄ 2 )− Δ0
|Z|≥ z α / 2
T=
independencia μ1−μ 2> Δ0 1 1 donde : T ≥ t α , n +n −2
μ1−μ 2=Δ 0 muestras pequeñas,
σ 12 . , .σ 22 desconocidas,
μ1−μ 2< Δ0
μ1−μ 2 ≠ Δ0
Sp
√ +
n 1 n2
2 2
1
T ≤−t α , n +n −2 1
|T |≥t α / 2 ,n + n −2
2
pero iguales S p=
√ (n1−1)S +(n2−1)S
n 1+ n2−2
( X̄ 1− X̄ 2 )− Δ0
1 2 1 2
T=
S21 S22 Siendo:
Normalidad,
independencia μ1−μ 2> Δ0
√ +
n1 n2
S 21 S22
2 T ≥ t α, V
μ1−μ 2=Δ 0 muestras pequeñas,
σ 12 . , .σ 22 desconocidas,
μ1−μ 2< Δ0
μ1−μ 2 ≠ Δ0 V=
( +
n 1 n2 ) T ≤−t α , V
|T |≥t α / 2 ,V
2 2
S 21 S22
pero diferentes
( ) ( )
n1
+
n2
n1−1 n2−1
Normalidad muestras μ D > Δ0 D̄−Δ 0 T ≥ t α , n−1
T=
μ D= Δ0 pequeñas , pareadas, μ D < Δ0 SD T ≤−t α , n−1
dependencia μ D ≠ Δ0 √n |T |≥t α / 2 ,n−1
( ^p1− ^p 2) −0
Z=
p1− p2 >0 Donde :
^p q^ 1 + 1
p1− p2=0
Experimento binomial,
muestras grandes,
independencia
p1− p2 <0
p1− p2 ≠ 0
√ (n1 n2
X + X2
) Z ≥ zα Z ≤ zα
|Z|≥ z α / 2
^p= 1
n1 +n 2
p1 − p2 > Δ 0 ( ^p1 −^p 2 )−Δ 0
Experimento binomial, Z= Z ≥ zα Z ≤ zα
p1− p2= Δ0 muestras grandes, p1− p2 < Δ 0 ^p1 q^ 1 ^p 2 q^ 2
independencia p1− p2 ≠ Δ0
σ < σ0
√( n1
+
n2) |Z|≥ z α / 2
Cabe anotar que entre ellos se destaca cuando se hace comparaciones con muestras pequeñas ya
que se debe de usar la distribución t- de student, existen dos casos en los cuales está involucrada
esta distribución: primero cuando siendo desconocidas las varianzas poblacionales se suponen
estas iguales, segundo cuando siendo desconocidas las varianzas poblacionales se suponen estas
diferentes.
Se puede hacer la prueba F para lograr determinar si las varianzas poblacionales son iguales o no,
las hipótesis para esta prueba son:
H 0 :σ 21=σ 22 H 1 : σ 21 ≠ σ 22
X̄−μ0
Z=
σ
√n
Donde μ0es el valor de la media poblacional en la hipótesis nula, la anterior Tabla muestra las
hipótesis a tener en cuenta para este caso:
Ejemplo: Estudiantes de ingeniería agroindustrial de la Universidad de Nariño prueban la vida de
anaquel de una bebida carbonada a base de uchuva, se quiere demostrar que la vida media
excede los 120 días. Se seleccionaron una muestra de 51 botellas al azar de la producción diaria y
se obtiene los siguientes resultados. ¿Existe evidencia suficiente para afirmar que la bebida no
excede los 120 días? Realice la prueba con α =0.05 .
X̄ =117❑ d í asS=15.3n=51
Debido a que en la muestra se obtiene un valor por debajo de los 120 días, es de sospechar que la
vida media de la bebida es inferior, por tanto se plantea la hipótesis alterna teniendo en cuenta
este hecho. Se calcula el estadístico de prueba:
X̄−μ0
Z=
σ
√n
Donde Δ 0es el valor de μ0 en la hipótesis nula, remplazando tenemos:
117−120
Z= =−1.400
15.3
√ 51
Dado que el estadístico de prueba es menor que el valor crítico con Z α /2 =−1.96, entonces se
acepta la hipótesis nula, no hay evidencia suficiente para afirmar que la vida media de la bebida
es inferior a los 120 días.
Ejemplo: El grupo ÉXITO identificado por Great place to Work como una de las compañías
Colombianas con más de 500 empleados donde las personas se sienten orgullosas de trabajar,
afirma que mensualmente invierte 970 millones de pesos en planes integrales para beneficiar a
sus trabajadores. Indica además que contribuye diariamente en venta de sus mercancías a precios
especiales entre sus colaboradores por más de 32 millones. Se decide hacer seguimiento durante
120 días y se obtiene que en promedio diario vende a sus colaboradores 23 millones con una
desviación estándar de 7 millones. ¿Hay evidencia suficiente para probar que las ventas que
benefician a los colaboradores del grupo ÉXITO es menor a la cantidad que ellos afirman vender?
Realice la prueba con un nivel de confianza del 5%
Implementación en STATGRAPHISC En la ventana de aplicación señalamos describir, datos
numéricos, prueba de hipótesis.
Se despliega el cuadro de dialogo de prueba de hipótesis, señalamos el parámetro
correspondiente en este caso media normal, la hipótesis nula que es de 32 millones, la media de la
muestra que es de 29,9 millones, la desviación estándar que es de 9,1 millones y el tamaño de la
muestra que es de 62. Las hipótesis a tener en cuenta son:
H 0 :μ 0 ≥ 32H 1 : μ 0< 32
Damos aceptar, se despliega el cuadro de dialogo de opciones prueba de hipótesis, de acuerdo con
la hipótesis alterna debemos señalar la opción menor que. Los resultados se presentan a
continuación:
Pruebas de Hipótesis
Media muestral = 29,9
Desviación estándar muestral = 9,1
Tamaño de muestra = 62
Límite superior de confianza del 95,0% para la media: 29,9 + 1,90096 [31,801]
El StatAdvisor
Este análisis muestra los resultados de realizar una prueba de hipótesis relativa a la media (mu) de una distribución
normal. Las dos hipótesis a ser evaluadas aquí son:
Dada una muestra de 62 observaciones con una media de 29,9 y una desviación estándar de 9,1, el estadístico Z calculado
es igual a -1,81708. Puesto que el valor-P para la prueba es menor que 0,05, puede rechazarse la hipótesis nula con un
95,0% de nivel de confianza. La cota de confianza muestra que los valores de mu soportados por los datos son menores o
iguales que 31,801.
De acuerdo con los resultados no hay evidencia suficiente para afirmar que las ventas que
benefician a los colaboradores sean iguales o mayores a 32 millones de pesos. Por otra parte si
observamos el límite superior del intervalo de confianza indica que por mucho dichas ventas llegan
a los 31,8 millones.
El StatAdvisor
Esta tabla muestra los estadísticos de resumen para Tiempo de Vida. Incluye medidas de tendencia central, medidas de
variabilidad y medidas de forma. De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las
cuales pueden utilizarse para determinar si la muestra proviene de una distribución normal. Valores de estos estadísticos
fuera del rango de -2 a +2 indican desviaciones significativas de la normalidad, lo que tendería a invalidar cualquier
prueba estadística con referencia a la desviación estándar. En este caso, el valor del sesgo estandarizado se encuentra
dentro del rango esperado para datos provenientes una distribución normal. El valor de curtosis estandarizada se
encuentra dentro del rango esperado para datos provenientes de una distribución normal.
De acuerdo con los anteriores resultados la curtosis y el sesgo se encuentran dentro del intervalo
para datos normales, por lo que podemos decir que el supuesto de normalidad se cumple.
En los resultados de la prueba de hipótesis damos clip derecho en opciones de ventana y se
despliega el siguiente cuadro de dialogo:
Marcamos la prueba t de student, el valor de la media que es en este caso 225,0, la hipótesis
alterna es menor que, verificamos el nivel de significancia y damos aceptar. Los resultados se dan
a continuación:
Prueba de Hipótesis para Tiempo de Vida
Media Muestral = 212,933
Mediana Muestral = 222,0
Desviación Estándar de la Muestra = 54,2145
Prueba t
Hipótesis Nula: media = 225,0
Alternativa: menor que
Estadístico t = -0,862021
Valor-P = 0,2016
No se rechaza la hipótesis nula para alfa = 0,05.
El StatAdvisor
Esta ventana muestra los resultados de las pruebas relativas a la población de la cual procede la muestra de Tiempo de
Vida. La prueba-t evalúa la hipótesis de que la media de Tiempo de Vida es igual a 225,0 versus la hipótesis alterna de
que la media de Tiempo de Vida es menor que 225,0. Debido a que el valor-P para esta prueba es mayor o igual a 0,05,
no se puede rechazar la hipótesis nula, con un nivel de confianza del 95,0% de confianza.
Se acepta la hipótesis nula y se concluye que no hay evidencia suficiente para afirmar que el
tiempo de vida es inferior a las 225 horas.
^p− p0
Z=
p 0 q0
√ n
Ejemplo: El concejo de Bogotá dice que las losas de transmilenio fueron construidas con un
material por debajo de las especificaciones y presentan un deterioro prematuro. Por otro lado, la
compañía encargada de su construcción asegura que esas aseveraciones son exageradas y dice
que el 95% se encuentran en buen estado. A fin de probar esta situación un equipo de ingenieros y
expertos evaluaron 60 unidades seleccionadas al azar y encontraron que 52 de ellas exhibían buen
estado. ¿Hay pruebas, con α =0.05 de que la verdadera proporción de losas en mal estado es
menor que lo que afirma la compañía constructora?
Solución: Se plantea las siguientes hipótesis:
H 0 : p 0=0.95H 1 : p 0 ≤ 0.95
52
El valor de ^p= =0.867 .
60
Encontramos el valor del estadístico de prueba:
^p− p0 0.867−0.95 −0.083
Z= Z= = =−2.964
p 0 q0 0.95 ×0.05 0.028
√ n √ 60
Dado que el estadístico de prueba es menor que el valor crítico con Z α /2 =−1.96, entonces se
rechaza la hipótesis nula y se concluye que hay suficiente evidencia para afirmar que el porcentaje
de losas en buen estado es inferior al que asegura la compañía.
Ejemplo: El presidente Maduro acusa la empresa Polar, mayor productor alimenticio del país, de
llevar a cabo una estrategia de desabastecimiento. Las empresas Polar escriben en su cuenta de
Twitter que está produciendo a plena capacidad la harina de maíz, clave en la dieta de los
venezolanos, y que el 48% de la harina en los supermercados es de “harina Pan” su producto
bandera. El gobierno decide tomar una muestra de 220 tiendas de barrio y encuentra que el 43%
de la harina corresponde a “harina Pan”. ¿Existe evidencia suficiente para afirmar que el
porcentaje de harina en el mercado correspondiente a “harina Pan” es inferior? Realice la prueba
con un nivel de confianza del 5%
Implementación en el STATGRAPHISC
Entramos los datos en la ventana de aplicación, en describir, datos numéricos, prueba de
hipótesis, damos clip para ingresar los datos y a continuación se despliega el cuadro de dialogo,
para prueba de hipótesis:
Señalamos en opciones prueba de hipótesis menor que y obtenemos los siguientes resultados
Pruebas de Hipótesis
Proporción de muestra = 0,43
Tamaño de muestra = 1220
Intervalo aproximado del límite superior de confianza del 95,0% para p: [0,453831]
El StatAdvisor
Este análisis muestra los resultados de realizar una prueba de hipótesis relativa a la proporción (teta) de una distribución
binomial. Las dos hipótesis a ser evaluadas aquí son:
El StatAdvisor
Este análisis muestra los resultados de realizar una prueba de hipótesis relativa a la proporción (teta) de una distribución
binomial. Las dos hipótesis a ser evaluadas aquí son:
Como se puede apreciar este resultado difiere del obtenido anteriormente, puesto que en este
caso no hay evidencia suficiente para afirmar que el porcentaje de harina es inferior al indicado
por los productores
Muestra de 220
Muestra de 1220
Cabe entonces la pregunta ¿cuál de los dos resultados se debe de tener en cuenta? Está pregunta
la podemos resolver mirando la potencia de cada prueba. Para el caso de la prueba con una
muestra de 220 establecimientos corresponde la curva de arriba, podemos observar que para una
proporción de aproximadamente el 0,43 corresponde una potencia de prueba de
aproximadamente 0,38, lo quiere decir que la probabilidad de cometer el error tipo II es de 1-0,38
=0,62. Mientras que en el segundo cuadro que corresponde a una muestra de 1220
establecimientos para una proporción aproximada de 0,43 corresponde una potencia de prueba
de 0,96, la probabilidad de cometer el error tipo II es de 1-0,96=0,04, por lo tanto se debe de tener
en cuenta los resultados correspondientes a la muestra de 1220.
( n−1 ) S 2
χ 2=
σ 20
El valor de χ 2α se escoge tal que P( χ 2 ≥ χ 2α )=α la región de rechazo se puede consultar en la tabla
Ejemplo: Suponga que la oficina de pesas y medidas especifican que la desviación estándar de la
cantidad de llenado debe de ser menor a 4.1 cc El supervisor de control de calidad, toma una
muestra de la producción diaria de 12 bolsas de leche de la pasteurizadora colácteos y mide la
cantidad de llenado. Los datos se dan a continuación:
790 796 798 801 797 803 802 804 801 799 788 804 797 798 800
Solución: Se debe primero encontrar la varianza para poder plantear las hipótesis. Haciendo los
cálculos correspondientes tenemos S=4.64 , luego o S2=21.52 remplazamos los valores en el
estadístico de prueba:
2 ( n−1 ) S 2 2 ( 15−1 ) 21.52 2
χ= χ= χ =17.922
σ 20 4.12
2
Si el valor del estadístico de prueba es menor que el valor de χ α /2 , 14, se acepta H 0, buscamos
❑ ❑
( X̄ 1− X̄ 2 )−Δ 0
Z=
σ 21 σ 22
√ +
n 1 n2
Ejemplo: Se quiere estudiar la resistencia a la tensión del cemento portland usando dos tipos
diferentes de mesclado. Los ingenieros afirman el tipo de mezclado dos es más eficiente que el
tipo uno. Se toma una muestra para cada uno de los tipos y se obtiene los siguientes resultados:
Pruebe si los tipos de mezclado tienen alguna influencia en la resistencia del cemento. Utilice
α =0.05
Solución: Se trata de muestras grandes, no se conocen las varianzas poblacionales pero se pueden
estimar a partir de la muestra. Las hipótesis son:
H 0 :μ 1=μ2 H 1 : μ 1 ≠ μ 2
Observe que el valor de Δ 0=0 : remplazando los valores en el estadístico de prueba tenemos:
Dado que el estadístico de prueba es menor que el valor crítico con Z α /2 =−1.96, entonces se
rechaza la hipótesis nula y podemos concluir que hay diferencias entre los dos tipos de mezclado,
o que no hay evidencia suficiente para afirmar que los dos tipos producen iguales resultados.
H 0 :σ 1=σ 2 H 1 : σ 1 ≠ σ 2
La distribución de probabilidad para realizar la anterior prueba es la F con n1 −1 grados de libertad
en el numerador y n2 −1 grados de libertad en el denominador. La región de rechazo se da en la
tabla
El estadístico de `prueba es:
S 21
F= 2
S2
Ejemplo: El siguiente ejemplo se utilizó para encontrar un intervalo de confianza. Recuerde que
existe dos casos diferentes a tener en cuenta para construir un intervalo: No se conocen las
varianzas poblacionales pero se suponen iguales y No se conocen las varianzas poblacionales pero
se suponen diferentes. Para saber si son iguales o no se debe de hacer la prueba F. Un industrial
que produce cereal inflado ensaya dos procedimientos de mantenimiento preventivo con
máquinas utilizadas para el procedimiento. Lo que se mide es el tiempo en terminar el proceso de
inflado. A continuación se da los resultados obtenidos en minutos
Maquina 1 Maquina 2
X̄ 1 =62 . 4 X̄ 2 =55 . 8
S 1 =3. 71 S 2 =4 . 22
n1 =18 n2 =20
Pruebe si las varianzas poblacionales son iguales o no. Utilice α =0.05
Solución: Se calcula el estadístico de prueba el cual está dado por:
S 21 3.71
F= 2
F= =0.879
S2 4.22
Buscamos el valor de F en la tabla con 17 grados de libertad en el numerador y 19 grados de
libertad en el denominador para α =0.05 el 2.23 Como el valor del estadístico de prueba es menor
al valor encontrado en la tabla de la F se acepta H 0
Como se probó anteriormente con la prueba F y se llegó a la conclusión de que se puede suponer
las varianzas poblacionales iguales, se calcula el estadístico de prueba de la siguiente forma:
( X̄ 1− X̄ 2 )− Δ0
T=
1 1
Sp
√ +
n 1 n2
Implementación en STATGRAPHISC
Para ingresar los datos, tal como, se muestra a continuación, en la ventana de aplicación se señala
comparar, dos muestras, prueba de hipótesis, a continuación se despliega el cuadro de dialogo de
pruebas de hipótesis comparación:
Pruebas de Hipótesis
Proporciones muestrales = 0,18 y 0,14
Tamaños de muestra = 1000 y 1000
Intervalo aproximado de los intervalos de confianza del 95,0% para la diferencia entre proporciones: [0,00791395;
0,0720861]
El StatAdvisor
Este análisis muestra los resultados de realizar una prueba de hipótesis relativa a la diferencia de dos proporciones (teta1-
teta2) de muestras provenientes de distribuciones binomiales. Las dos hipótesis a ser evaluadas aquí son:
En la primera muestra de 1000 observaciones, la proporción muestral es igual a 0,18. En la segunda muestra de 1000
observaciones, la proporción muestral es igual a 0,14. Puesto que el valor-P para la prueba es menor que 0,05, puede
rechazarse la hipótesis nula con un 95,0% de nivel de confianza. El intervalo de confianza muestra que los valores de
teta1-teta2 soportados por los datos caen entre 0,00791395 y 0,0720861.
Puesto que el p-valor es menor que el nivel de significancia se debe de rechazar la hipótesis que la
proporción de personas que se enteraron de la campaña en ambos centros comerciales es igual.
Observe que el intervalo de confianza para la diferencia de proporciones no contiene el cero,
puesto que estos valores son positivos podemos llegar a la conclusión que el porcentaje de
personas que se enteraron de la campaña es mayor en el “único”.
Ejemplo: El presidente de Venezuela Nicolás Maduro afirma que está librando una guerra contra
el desabastecimiento, difunde un índice para medir la ausencia de bienes en el comercio. En abril
del presente año este índice subió al 21,3% comparado con el 20,1% del mes anterior una cifra
superior a lo que se considera normal en el país petrolero. ¿Existe evidencia para afirmar que el,
índice ha crecido con relación al índice del mes pasado? Tome en cuenta para el mes de Marzo se
tiene en cuenta los 31 días, mientras que para el mes de Abril se tiene en cuenta treinta días.
Implementación en STATGRAPHISC
H 0 : p 1− p2=0H 1 : p1 −p 2 ≠ 0
Pruebas de Hipótesis
Proporciones muestrales = 0,213 y 0,201
Tamaños de muestra = 31 y 30
Intervalo aproximado del intervalo de confianza del 95,0% para la diferencia entre proporciones: [-0,191315; 0,215315]
Advertencia: la aproximación normal puede no ser apropiado a para tamaños de muestra pequeños.
El StatAdvisor
Este análisis muestra los resultados de realizar una prueba de hipótesis relativa a la diferencia de dos proporciones (teta1-
teta2) de muestras provenientes de distribuciones binomiales. Las dos hipótesis a ser evaluadas aquí son:
Ejemplo: Algunos científicos han vinculado la disminución del número de ranas debido a la capa de
ozono. No obstante, la rana arbórea del pacifico parece que produce una enzima que protege los
huevos de la radiación ultravioleta. Se adelantan estudios para determinar la veracidad de esta
aseveración. Un grupo de huevos se protegió de la radiación solar, mientras que otro segundo
grupo se dejó sin protección, los resultados se dan en la siguiente tabla.
❑ ❑
Calculamos los valores de ^p1 y ^p2
34 31
^p1= =0.4857^p2= =0.3875
70 80
❑ ❑
Calculamos ^p y q^
34+31
^p❑= =0.4333q^ =1− ^p =0.5667
70+80
( 0.4857−0.3875 )−0
Z= 0.0982
1 1 Z= Z=1.21
√(0.4333 ×0.5667) ( +
70 80 )
√ 6.577 ×1 0−3
El valor crítico para un nivel de confianza α =0.01para una prueba bilateral es |2.53|, como el
valor del estadístico de prueba es menor al valor crítico entonces concluimos que no hay evidencia
suficiente para afirmar que los métodos de eclosión son diferentes
Ejemplo: Suponga que en el ejemplo anterior se efectuó la investigación pero con dos especies
diferentes de ranas una de ellas es la rana del pacifico y la otra es una especie diferente. La
eclosión de los huevos se efectuó sin ninguna protección de los rayos solares. Los resultados se
dan a continuación:
Los investigadores creen que la proporción de huevos de la rana del pacifico eclosionados superan
en menos de un 5% a los huevos eclosionados de otra especie. Pruebe si hay evidencia suficiente
para afirmar esto. Utilice α =0.05
Solución: Debido a que se requiere determinar si hay diferencia o no entre los dos métodos de
eclosión, se debe de plantear las hipótesis de la siguiente manera:
H 0 : p 1− p2 <0.05H 1 : p1 −p 2 ≥ 0.05
❑ ❑
Calculamos los valores de ^p1 y ^p2
34 ¿
25 ¿
^p1= =0.4857 q^ 1=1−^p 1=0.5143^p2= =0.2976 q^ 2=1−^p2=0.7023
70 84
( 0.4857−0.3048 )−0.1
Z=
0.1309
0.4857 × 0.5143 0.2976 × 0.7023 Z=
¿
√( 70
¿
+
84 ) √ 6.05667 ×1 0 −3 Z=1.68
Debido a que el valor del estadístico de prueba Z=1.68 es mayor que el valor crítico para la
prueba unilateral con α =0.05 , es de 1.24, entonces rechazamos la hipótesis nula y concluimos
que hay evidencia suficiente para afirmar que el porcentaje de eclosión es al menos un 5% mayor
en las ranas del pacifico
P-valor o Nivel de significancia observado
El P-valor indica la probabilidad de observar un valor de la estadística de prueba que contradice la
hipótesis nula suponiendo que está sea verdadera. El P-valor es una manera fácil de verificar la
aceptación o rechazo de la hipótesis nula, para ello se tiene la siguiente regla:
Si el P-valor es mayor que el nivel de significancia entonces se acepta la hipótesis nula. En caso
contrario se rechaza.
Ejemplo:
Si tenemos un P-valor de: 0.067 Se aceptaría la hipótesis nula en los niveles de significancia de
0.01 y 0.05 ya que el P-valor es mayor que estos, pero la hipótesis nula se rechaza para un nivel de
significancia de 0.1.
16,85 17,50
16,40 17,63
17,21 18,25
16,52 18,00
17,04 17,86
16,96 17,75
16,35 18,22
17,15 17,90
16,59 17,96
16,57 18,15
En la ventana de aplicación y buscamos la opción herramientas, damos clip en opción Analizar,
datos continuos, Comparación de dos muestras, Muestras independientes, se despliega el siguiente
cuadro de dialogo:
Los datos se ingresan en dos columnas Muestra 1 Mortero Modificado en la muestra 2 Mortero sin
modificar y damos aceptar y se despliega la ventana de análisis con los siguientes resultados:
Resumen Estadístico
Mortero Modificado Mortero Sin Modificar
Recuento 10 10
Promedio 16,764 17,922
Desviación Estándar 0,316446 0,247916
Coeficiente de Variación 1,88765% 1,3833%
Mínimo 16,35 17,5
Máximo 17,21 18,25
Rango 0,86 0,75
Sesgo Estandarizado 0,164866 -0,367766
Curtosis Estandarizada -1,08822 -0,485929
El StatAdvisor
Esta tabla contiene el resumen estadístico para las dos muestras de datos. Pueden utilizarse otras opciones tabulares, dentro de este
análisis, para evaluar si las diferencias entre los estadísticos de las dos muestras son estadísticamente significativas. De particular
interés son el sesgo estandarizado y la curtosis estandarizada que pueden usarse para comparar si las muestras provienen de
distribuciones normales. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones significativas de la normalidad, lo
que tendería a invalidar las pruebas que comparan las desviaciones estándar. En este caso, ambos valores de sesgo estandarizado se
encuentran dentro del rango esperado. Ambas curtosis estandarizadas se encuentran dentro del rango esperado
Se debe de revisar el resumen estadístico para verificar la normalidad de los datos, en este caso tal
como lo advierte el StatAdvisor no hay desviaciones significativas de la normalidad, luego se
puede aplicar la prueba t porque se trata de muestras pequeñas. No conocemos las varianzas
poblacionales por lo que tenemos que hacer la prueba F para determinar si son las varianzas
poblacionales iguales o no. Esto se puede hacer mediante opciones tabulares. Los resultados son
los siguientes:
Mortero Modificado Mortero Sin Modificar
Desviación Estándar 0,316446 0,247916
Varianza 0,100138 0,0614622
Gl 9 9
Razón de Varianzas= 1,62926
Intervalos de confianza del 95,0%
Desviación Estándar de Mortero Modificado: [0,217662; 0,577706]
Desviación Estándar de Mortero Sin Modificar: [0,170525; 0,452598]
Razones de Varianzas: [0,404684; 6,55938]
El StatAdvisor
Esta opción ejecuta una prueba-t para comparar las medias de las dos muestras. También construye los intervalos, o cotas, de
confianza para cada media y para la diferencia entre las medias. De interés particular es el intervalo de confianza para la diferencia
entre las medias, el cual se extiende desde -1,42507 hasta -0,890926. Puesto que el intervalo no contiene el valor 0, existe una
diferencia estadísticamente significativa entre las medias de las dos muestras, con un nivel de confianza del 95,0%.
También puede usarse una prueba-t para evaluar hipótesis específicas acerca de la diferencia entre las medias de las poblaciones de las
cuales provienen las dos muestras. En este caso, la prueba se ha construido para determinar si la diferencia entre las dos medias es
igual a 0,0 versus la hipótesis alterna de que la diferencia no es igual a 0,0. Puesto que el valor-P calculado es menor que 0,05, se
puede rechazar la hipótesis nula en favor de la alterna.
NOTA: estos resultados asumen que las varianzas de las dos muestras son iguales. En este caso, esa suposición parece razonable, con
base en los resultados de la prueba-F para comparar las desviaciones estándar. Pueden verse los resultados de esta prueba
seleccionando Comparación de Desviaciones Estándar del menú de Opciones Tabulares.
Según los resultados del intervalo de confianza y de la prueba de hipótesis para la diferencia de
medias no hay evidencia suficiente para afirmar que las dos formulaciones producen resultados
similares en cuanto a la fuerza de adhesión del cemento.
BIBLIOGRAFIA
ANDERSON, D. R. SWEENEY D. J. WILLIAMS T. A. “Estadística para Administración y Economía”
2008 Décima edición México Cengage Learning
CANAVOS G.” Probabilidad y Estadística Aplicaciones y Métodos” (1999) Mc Graw-Hill México D.F.
LEVIN J. LEVIN W. “Fundamentos de Estadística en la investigación social” 2006 Segunda edición
Alfa omega grupo editor México D.F.
LEVIN I. RICHARDS, 1996 “Estadística para Administradores” séptima edición México Prentice Hall
LINDGREN B. Statistical Theory Fourth Edition Chapman & Hall New York 1993
MASON, R, LIND, D. Y MARCHAL.W (2001) “Estadística para Administración y Economía. Décima
edición Mc Graw-Hill
MAYORGA A. H. “Inferencia Estadística” Notas de clase. (2003) Universidad Nacional de Colombia
Unibiblos Bogotá D. C.
MENDENHALL W. WACKERLY D. SCHEAFFER (1994) “Estadística Matemática con aplicaciones”
Grupo editorial Iberoamérica México D.F.
MENDENHALL W. (2002) “Estadística para Administradores” grupo editorial Iberoamérica México
D.F.
MONTGOMERY D. Diseño y Análisis de Experimentos, segunda edición, Editorial Limusa México
2003
PÉREZ CÉSAR Estadística Práctica con STATGRAPHICS Prentice Hall Madrid 2002