Documentos de Académico
Documentos de Profesional
Documentos de Cultura
∑( − ) ∑( − )
Desviación Típica = =
∑( − ) ∑( − )
Varianza = =
Cuando se extraen muestras de tamaño n de una población de tamaño N, se cumple que la Media
(μX) y la Desviación Típica (σX) de todas las muestras se relacionan con la Media (μ) y Desviación Típica
(σ) poblacional de la siguiente forma:
=
−
=
√ −1
Si se trata de poblaciones infinitas o el muestreo se hace con reemplazo, las relaciones anteriores
pueden expresarse como:
=
=
√
46
Angel Gerardo Méndez
Parámetros Poblacionales
Cuando se mide alguna variable es importante saber que tan alejado está el valor obtenido del
valor verdadero o esperado. Una forma de conseguirlo es a través de la incertidumbre o estimación de la
desviación estándar.
Por ejemplo, si se mide el tiempo de entrega de un pedido, si se toma una muestra de todas las
mediciones hechas mediante el mismo procedimiento y al calcular la media muestral ( ̅ ) ésta da 21 días
y la incertidumbre, representada por la desviación estándar (S) es de 1 día. Si los valores están
distribuidos normalmente, aunque el tiempo de entrega real no sea de 21 días, como este valor fue
calculado a partir de una distribución normal, se puede usar la desviación estándar calculada para
estimar qué tan cerca está, probablemente, el tiempo real de entrega del tiempo promedio calculado.
Por ejemplo, se considera poco probable que la media muestral sea diferente del tiempo real en
más de tres desviaciones estándar. Esto quiere decir que se tiene mucha confianza que el tiempo real
está dentro del intervalo (18, 24), es decir el valor de ̅ ± 3S.
Por otra parte, es más probable que la media muestral sea diferente del valor real en más de una
desviación estándar, es decir se tiene menos certeza que el tiempo de entrega real en el intervalo
(20,22).
Los intervalos (18, 24) y (20,22) son intervalos de confianza del tiempo de entrega real. Se trata de
calcular el nivel de confianza que se puede tener en estos intervalos, y de otros que se puedan estudiar.
El proceso consiste en determinar los números que definen el intervalo dentro del cual se supone que
está incluido el valor del parámetro que se estima de la población, con una probabilidad dada.
Para calcular el intervalo de confianza, como σ y σx = /√100 son valores desconocidos, pero
siendo la muestra que se tomó grande (n = 100) se puede aproximar el valor de σ al valor de la
desviación estándar muestral S = 10, entonces = 10/√100 = 1, por lo que se calcula el intervalo de
confianza de 95% para la media de peso de llenado de cajas de cereal como:
1.205 ± 1,96*1, lo cual equivale a un intervalo (1.203,04; 1.206,96).
Lo cual significa que puede afirmarse con un 95% de confianza que la media del peso de llenado
está entre 1.203,04 y 1.206,96 gramos.
El nivel de confianza es la probabilidad de que el valor desconocido del parámetro este
comprendido dentro de los límites de confianza.
En el problema estudiado el valor Zc = 1,96 se denomina Coeficiente de Confianza y depende del
nivel de confianza.
Si se varía el nivel de confianza cambia el intervalo de confianza, sabiendo que la media es 1.205g,
para este problema se tendría:
Nivel de Valor de Valor de Zc
Intervalo de confianza Intervalo de confianza del caso de estudio
confianza (aproximado)
68% 0,16 1 ̅ ± /√ (1.206,1.207)
90% 0,05 1,65 ̅ ± 1,65 ∗ /√ (1.203,35; 1.206,65)
95% 0,025 1,96 ̅ ± 1,96 ∗ /√ (1.203,04; 1.206,96)
99% 0,005 2,58 ̅ ± 2,58 ∗ /√ (1.202,42; 1.207,58)
99,7% 0,0015 3 ̅ ± 3 ∗ /√ (1.202; 1208)
√
La distribución t de Student cambia según los grados de libertad. La construcción del intervalo de
confianza se basa en la determinación de los valores de t que encierran la cantidad anterior, es decir:
̅−
− < <
√
Para calcular el valor del intervalo alrededor de la media (µ) se multiplica la ecuación por -1 y por
y luego se suma a todo ̅ , lo cual da como resultado:
√
̅− ∗ < < ̅+ ∗
√ √
Por ejemplo, se decide estudiar un proceso de soldadura, para ello se fabrican cinco probetas
normalizadas y se mide la resistencia de cada una antes de romperse. Los resultados fueron: 56,3; 65,4;
58,7; 70,1 y 63,9 kPSI. Se ha supuesto que los datos son aleatorios y con una distribución
aproximadamente normal. Se debe determinar un intervalo de confianza para la media de la resistencia
de las soldaduras hechas por este proceso.
Para este caso se usa la distribución t de Student con n-1 grados de libertad. Se toma un nivel de
confianza de 95%. Con el intervalo de confianza 95% (0,95):
El valor de α/2 es (1-0,95)/2 = 0,025
Con n-1 = 4 (ν)
Se encuentra en la tabla t de Student que el 95% de los valores de la distribución (área bajo la
curva) está contenidos entre los valores t = -2,776 y t = 2,776.
49
Angel Gerardo Méndez
∑( − ̅ ) (56,3 − 62,88) + (65,4 − 62,88) + (58,7 − 62,88) (70,1 − 62,88) + (63,9 − 62,88)
= =
−1 4
,
= = 5,48
Pruebas de Hipótesis
Las pruebas o contrastes son los métodos de la Inferencia Estadística usados para tomar decisiones
acerca de poblaciones a partir de investigaciones basadas en muestras de éstas.
Para la toma de decisiones en este campo conviene formular hipótesis o conjeturas sobre la
población objeto de estudio, estas hipótesis pueden ser ciertas o no. Se denominan hipótesis estadísticas
porque son enunciados sobre las distribuciones de probabilidad de las poblaciones.
Hipótesis nula.
Estas hipótesis estadísticas se plantean con el fin de rechazarlas o invalidarlas, por ejemplo si se
quiere decidir si un proceso es mejor que otro, se plantea como hipótesis que no hay diferencia entre los
dos procesos, suponiendo que cualquier diferencia observada es producida por el muestreo de la misma
población. Este tipo de hipótesis se llaman nulas y se denotan como H0.
Hipótesis alternativa.
Toda hipótesis que difiere de una planteada se denomina hipótesis alternativa. Por ejemplo, si se
plantea como hipótesis que p = 0,5; las hipótesis alternativas podrían ser P=0,7, p≠0,5 o p>0,5. La
hipótesis alternativa a la hipótesis nula se denomina H1.
50
Angel Gerardo Méndez
Cuando se supone que una hipótesis es cierta pero los resultados hallados en una muestra
aleatoria difieren notablemente de los esperados bajo la hipótesis propuesta, entonces se dice que las
diferencias observadas son significativas y se tendría que rechazar la hipótesis o al menos no aceptarla
antes los resultados obtenidos.
Los procedimientos que sirven para determinar si las muestras observadas difieren
significativamente de los resultados esperados se llaman contrastes de hipótesis, de significación o
reglas de decisión, y son las pruebas que sirven para rechazar o no una hipótesis.
Decisión
Hipótesis Nula
Aceptar H0 Rechazar H0
H0 es cierta Decisión Correcta (1-α) Error Tipo I (α)
H0 es falsa Error Tipo II (β) Decisión Correcta (1-β)
Nivel de significación.
El nivel de significación es la magnitud del error que se está dispuesto a tolerar al concluir sobre
una prueba de hipótesis, en términos de probabilidades. El nivel de significación es una cifra menor a 1,
que indica la probabilidad de equivocarse al llegar a una conclusión.
Por ejemplo, un nivel de significación de 0,01 indica que la conclusión obtenida tiene una
probabilidad de 1% de estar equivocada y un 99% de ser acertada.
A medida que el nivel de significación es mayor, hay más probabilidad de cometer el error Tipo I, al
rechazar una hipótesis que es cierta.
Entonces, la máxima probabilidad de cometer un error Tipo I, se llama nivel de significación del
contraste, probabilidad que se denomina α. En la práctica es frecuente establecer un nivel de
51
Angel Gerardo Méndez
significación de 0,05 o 0,01. Por ejemplo, si se escoge un nivel de significancia de 0,05 (5%) entonces hay
unas 5 oportunidades de 100 de rechazar una hipótesis cuando debiera haberse aceptado.
Por ejemplo, si se usa la distribución Normal con media µ y desviación típica σ, como referencia
para contrastar una hipótesis, y se tiene una muestra con una media igual a ̅ , si se quiere determinar
con un nivel de confianza de 95% si la hipótesis es verdadera, entonces se calcula el valor de Z
correspondiente a la media muestral:
̅−
=
Se podría tener un 95% de confianza de que si la hipótesis es verdadera, el valor de Z de un
estadístico muestral ̅ estará entre -1,96 y 1,96, ya que el área bajo la curva entre estos valores de Z es
0,95, estos valores de Z suelen llamarse Z crítico o Zc. Si al tomar una muestra y al calcular su estadístico
̅ este quedará fuera del intervalo entre -1,96 y 1,96; entonces se rechazará la hipótesis o no se
aceptaría, esto podría ocurrir con una probabilidad de 0,05 (5%), marcado como región crítica, de
rechazo o de significancia.
En este caso, se tiene el 95% de confianza de que si la hipótesis es cierta, el valor de Z obtenido de
una muestra tomada se encontrará entre -1,96 y 1,96; ya que el área bajo la curva entre estos dos
valores de Z de la distribución normal tipificada abarca un 95% (0,95) de todos los valores de la
población.
El área sombreada que abarca un 5% (0,025+0,025 = 0,05) representa el nivel de significación del
estudio o ensayo, y cuantifica la probabilidad de cometer el error Tipo I.
En la tabla se resume los valores de Z para distintos niveles de confianza y significación.
Nivel de confianza 90,00 95,00 99,00 99,50 99,8
Nivel de significancia α 0,10 0,05 0,01 0,005 0,002
Valores de Zc para
-1,28 o 1,28 -1,645 o 1,645 -2,33 0 2,33 -2,58 o 2,58 -2,88 o 2,88
pruebas de una cola
Valores de Zc para
-1,645 y 1,645 -1,96 y 1,96 -2,58 y 2,58 -2,81 y 2,81 -3,08 y 3,08
pruebas de dos colas
53
Angel Gerardo Méndez
Ejemplos
Ejemplo 1: Un laboratorio afirma que uno de sus medicamentos es 90% efectivo para combatir un
tipo de alergia en 8 horas. En una muestra de 200 personas que tomaron ese medicamento se lograron
buenos resultados en 160 personas. Se debe determinar si la afirmación del laboratorio es cierta.
Según el laboratorio la probabilidad de que el medicamento sea efectivo es 0,90, entonces se
plantean las siguientes hipótesis:
H0: p = 0,90; lo que implicaría que la afirmación del laboratorio es correcta.
H1: p < 0,90; lo cual significa que la afirmación no es cierta.
En este caso como se desea comprobar que el porcentaje de personas curadas es baja, se elige un
contraste de una cola. Se toma un nivel de significación de 0,01 y como se trata de una prueba de una
cola en este caso el Zc = -2,33. Es decir para aceptar la afirmación del laboratorio el Z calculado para el
estadístico de la prueba debe ser mayor que -2,33.
Ejemplo 2: La vida media de 100 lámparas fluorescentes producidas por una compañía es de 1.570
horas con una desviación típica de 120 horas. Si µ es la vida media de todos los productos de esa
compañía, contrastar la hipótesis de que µ=1.600 horas contra la hipótesis alternativa µ≠1.600 horas,
usando un nivel de significación de: (a) α=0,05 y (b) α=0,01.
54
Angel Gerardo Méndez
En este caso se debe decidir entre dos hipótesis:
H0: µ = 1.600 h
H1: µ ≠ 1.600 h
Como la condición µ ≠ 1.600 incluye valores mayores y menores que 1.600, se usa un contraste de
dos colas.
a) Para el caso de un contraste de dos colas con un nivel de significación de 0,05 (α/2=0,025), se
tiene la siguiente regla de decisión:
Rechazar H0 si el valor de Z de la media muestral está fuera del rango -1,96 hasta 1,96.
Aceptar H0 en caso contrario.
b) Para el caso con un nivel de significación de 0,01 (α/2 = 0,005), el rango de aceptación de H0
estaría entre -2,58 a 2,58. Como el valor de Z calculado para el estadístico dio -2,50 y está
dentro del rango, se acepta H0, o al menos no se rechaza en primera instancia al nivel de
significación de 0,01.
Ejemplo 3: La compañía anterior fabrica otro tipo de lámpara cuya vida media es 1.180 horas con
una desviación típica de 96 horas. Se realiza un nuevo diseño que supone una mejoría en la calidad de las
lámparas y una mayor duración. Para comprobar esto se toma una muestra de 100 lámparas de la nueva
producción cuya duración media fue de 1.200 horas.
En este caso se hace un ensayo de una cola y la región de rechazo se encuentra al lado derecho de
la distribución, las hipótesis que se plantean son:
H0: µ = 1.180 horas; es decir se plantea que la vida media de las nuevas lámparas no ha
cambiado con respecto al anterior modelo.
H1: µ > 1.180 horas, con nivel de significación α = 0,05.
a) Como α = 0,05 y se trata de un ensayo de una cola, el valor de Zc = 1,645; esto quiere decir que
si el valor de Z calculado para la muestra es mayor a 1,645; los resultados son significativos al
nivel de 0,05 y se rechaza H0.
55
Angel Gerardo Méndez
b) En caso contrario se acepta H0 o al menos no se rechaza.
El valor de Z para la muestra de 100 lámparas es:
̅ − 1.200 − 1.180 20
= = = = 2,08
96 9,6
√100
Como 2,08 > 1,96; se rechaza la hipótesis de H 0 al nivel de
significación de 0,05. En este caso se concluye que la vida
de las lámparas ha mejorado.
Si en vez de elegir un nivel de significación de 0,05 se
hubiese elegido un nivel de significación de 0,01; el
resultado sería el siguiente:
En este caso para ese nivel de significación el valor de Zc
sería 2,33.
Como el valor de Z calculado para la muestra fue de 2,08
que es menor que 2,33; se tendría que aceptar H0, por lo
que se concluiría que la vida de las lámparas sigue siendo
igual.
Distribución t de Student.
Ya se explicó que el uso de esta distribución se basa en el cálculo del estadístico t, es decir:
̅− ̅−
= = ∗√ −1
√ −1
Ejemplo 4. Una máquina fabricaba arandelas con espesor de 1,265 mm. Se desea saber si aún
mantiene su característica de calidad por lo que se tomó una muestra de 10 arandelas, cuyo espesor
medio fue de 1,341 mm con desviación típica de 0,076 mm. Se desea determinar si la máquina sigue
funcionando bien, con nivel de significación de (a) 0,05 y (b) 0,01, por lo que se plantean las hipótesis:
H0: µ = 1,265; lo que significa que la máquina sigue operando bien.
H1: µ ≠ 1,265; lo que significa que la máquina está deteriorada.
56
Angel Gerardo Méndez
En este caso se hará una prueba de dos colas, por lo que se calcula el estadístico t para este caso:
̅− 1,341 − 1,265
= ∗√ −1= ∗ √10 − 1 = 3,00
0,076
a) Para una prueba de dos colas al nivel de significación 0,05 (α = 0,05/2 = 0,025, nivel de
confianza = 1,00 – 0,025 = 0,975), con 10 – 1 = 9 grados de libertad (ν), se busca el valor de t
que estaría en el intervalo -2,26 a 2,26.
Aceptar H0 si t está dentro del intervalo determinado, -2,26 < t < 2,26.
Rechazar en caso contrario.
Como t = 3,00; queda fuera del intervalo, se rechaza H0 con nivel de significancia de 0,05.
b) Para una prueba de dos colas al nivel de significación 0,01 (α = 0,01/2 = 0,005, nivel de
confianza = 1,00 – 0,005 = 0,995), con 10 – 1 = 9 grados de libertad (ν), se busca el valor de t
que estaría en el intervalo -3,25 a 3,25.
Aceptar H0 si t está dentro del intervalo determinado, -3,25 < t < 3,25.
Rechazar en caso contrario.
Como t = 3,00; está dentro del intervalo, se acepta H 0 con nivel de significancia de 0,01. En este
caso puede recomendarse otro estudio o revisar cuidadosamente la máquina.
Ejemplo 5. Los Coeficientes de Cociente Intelectual (CI) de 16 estudiantes de un liceo “A” dieron
una media de 107 con desviación típica igual a 10, y 14 estudiantes del liceo “B” dieron media de 112 con
desviación típica igual a 8. ¿hay alguna diferencia significativa entre los CI de los dos grupos al nivel de
significación de (a) 0,01 y (b) 0,05?
En este problema µA y µB son las medias de los CI de la población de cada liceo respectivamente, se
trata de decidir si:
H0: µA = µB, es decir no hay diferencia entre los CI de los liceos.
H1: µA ≠ µB, hay diferencia significativa entre los CI de los liceos.
Para este tipo de estudio donde se contrastan dos poblaciones el estadístico t de Student se calcula
de la siguiente forma:
∗ ∗
= = 9,44 y = = 1,45
, ∗
57
Angel Gerardo Méndez
b) En el caso de hacer una contrastación bilateral a nivel de significación 0,05; se rechazaría H 0 si
estuviera fuera del rango -t0,975 hasta t0,975; para 28 grados de libertad (ν), en esta caso el rango
dado por la tabla t de Student es -2,05 a 2,05; como t=1,45 no se rechaza H 0 a nivel de
significación 0,01.
En este caso podría concluirse que no hay diferencia significativa entre los dos grupos.
58