Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Las gráficas asociadas a cada una de las pruebas de hipótesis como ejemplo con el valor de 0 =
5, son las siguientes.
LOJB Página 1 de 20
Gráfica caso No. 1
H0
d
H0
d
H0
d
Las zonas y /2 son las regiones de rechazo de H0. Los valores 𝑡 , y 𝑡 ⁄ , son obtenidos a
partir de la tabla de áreas de la distribución t. Para la planificación de encuestas como
instrumento de obtención de información interesan los valores estimados para la media , dados
por los intervalos de confianza a un percentil (1 – ).
LOJB Página 2 de 20
Tamaño de muestra para el intervalo de confianza con un percentil (1 – )
La determinación de los valores estimados de la media en los intervalos de confianza tienen las
siguientes expresiones.
En las expresiones (1), (2) y (3) anteriores, los términos 𝑡 , y 𝑡 ⁄ , representan tolerancias
√ √
permitidas por la estadística.
Para los casos unilaterales (1) y (2) es posible definir dicha tolerancia como una diferencia o
tamaño de tolerancia del intervalo como: 𝑑 = 𝑡 , . Para el caso bilateral (3) es posible definir
√
dicha tolerancia directamente como el tamaño del intervalo mediante: 𝑑 = 𝑡 ⁄ , . Estos
√
tamaños de tolerancia pueden ser previamente planificados por el diseñador de la encuesta. Es
necesario aclarar que estas tolerancias o diferencias no controlan los valores de probabilidad que
podemos cometer del error tipo II cuyo valor es , únicamente controlan el tamaño del intervalo
de confianza el cual está relacionado exclusivamente con el nivel de significación , la
desviación estándar s y el tamaño de la muestra n.
En consecuencia, los aspectos involucrados en el tamaño del intervalo de confianza son cuatro:
1. El nivel de significación o bien el percentil (1 – ).
2. La desviación estándar s que se obtiene con la información generada.
3. El tamaño de muestra n a utilizar para obtener la información.
4. El tamaño de tolerancia d que es definida previamente por el diseñador de la encuesta.
,
Para los casos No.1 y No. 2 son: 𝑛= casos unilaterales (4)
⁄ ,
Para el caso No. 3 es: 𝑛= caso bilateral (5)
Las expresiones (4) y (5) permiten calcular el tamaño de muestra n solo con el criterio único de
cumplimiento del percentil (1 – ) y tamaño de tolerancia d con referencia a la desviación
estándar s que se obtenga de la información muestral.
LOJB Página 3 de 20
Procedimiento de cálculo del tamaño de muestra n en función del tamaño del intervalo deseado
1. Defina el valor k deseado para el intervalo de confianza.
2. Defina el valor de significación .
3. Iniciar la primera iteración con n = 2.
4. Obtener el valor de la t correspondiente.
5. Con las expresiones (4) o (5) obtenga la nueva n.
6. Ajuste el valor de la nueva n con el criterio entero mayor.
7. Preguntar si la nueva n es igual a la n anterior.
. Si su respuesta es SI ha terminado el procedimiento y su valor es n nueva.
. Si su respuesta es NO ir al paso número 4, con n nueva. Si existe ciclado tomar la mayor.
En ambos casos la tolerancia del intervalo de confianza representa el 10% del valor de la
desviación estándar y se obtuvieron estables los valores en la cuarta iteración. Los resultados son
para el caso bilateral un tamaño de muestra de 387 y para los casos unilaterales un tamaño de
muestra de 273.
Algunas veces puede resultar un ciclado iterativo por el criterio de entero mayor que es necesario
para la igualación algebraica, como ejemplo se utiliza a continuación los siguientes valores: =
.05, k = 0.76 bilateral y k = 0.38 unilateral que a continuación se presenta.
LOJB Página 4 de 20
Fuente: Elaboración propia con el archivo Excel Valztjf.xls
En ambos casos la tolerancia del intervalo de confianza representa el 38% del valor de la
desviación estándar, se observa en el caso bilateral un ciclado iterativo a partir de la 5° iteración.
En los casos unilaterales se observa estable desde la 4° iteración. Los resultados son para el caso
bilateral un tamaño de muestra de 30 y para los casos unilaterales un tamaño de muestra de 21.
El tamaño de muestra n en las pruebas de hipótesis tal que cumplan a lo más los valores y de
los errores tipos I y II.
Al postular una prueba de hipótesis estadística, se inicia probando un valor supuesto por el
investigador (0), éste es colocado en la H0, comúnmente conocida con el nombre de hipótesis
nula. Si es rechazada la hipótesis H0, entonces es directamente aceptada la hipótesis alternativa
H1, esto es cierto puesto que el investigador acepta utilizar el riesgo en su decisión mediante el
uso del valor o nivel de significación de la prueba.
LOJB Página 5 de 20
Sin embargo, al no lograr rechazar la H0, no es posible directamente aceptar H0, esto es cierto si
el investigador no ha previsto el riesgo de cometer el error tipo II. El no lograr rechazar H0 solo
asegura estar en el intervalo de confianza con un percentil (1 – ) y esto último no es suficiente
para controlar los errores I y II que pueden ser cometidos en las decisiones.
Se definen las curvas características de operación como el trazado de la gráfica que asocia la
probabilidad de cometer el error tipo II con una diferencia estandarizada 𝑘 = que representa la
diferencia de medias (0 y 1) por cada unidad de desviación estándar s.
Para las curvas características de operación de pruebas de medias, se define una distancia de
medias d en la siguiente forma. Sea 𝑑 = |𝜇 − 𝜇 | esta expresión representa la distancia menor
que se detecta en las condiciones planteadas por las pruebas de hipótesis H0 y H1. La distancia d
es un valor que proviene de la propia naturaleza del fenómeno en estudio.
En las siguientes tres figuras, se representan los casos Nos. 1, 2 y 3. Para efectos gráficos, se ha
considerado 0 = 12 en los tres casos. Para el caso 1: 1 = 14, para el caso 2: 1 = 10 y para el
caso 3: 1 = 14.3151. Las distancias d son. Para el caso 1: d = 2, para el caso 2: d = 2 y para el
caso 3: d = 2.3151. En todos los casos, la desviación estándar poblacional se ha mantenido en 1,
es decir = 1.
Las expresiones de cálculo para los estadísticos t y para el tamaño muestral n son las siguientes
(en el caso 3, LI es límite inferior, LS es límite superior).
, ,
Para el tamaño muestral n: 𝑛= (9)
Caso No. 3:
⁄ , ,
Para el tamaño muestral n: 𝑛= (11)
LOJB Página 6 de 20
Gráfica caso No. 1
H0 H1
d
Fuente: Elaboración propia con el archivo Excel H0H1.xlsm
Gráfica caso No. 2
H1 H0
H0 H1
Las expresiones (8) y (10c) permiten conocer el valor , habiendo fijado , k y n. Si se requiere
el tamaño de muestra n, es posible utilizar las expresiones (9) y (11) habiendo fijado , y k. Si
se desea obtener los valores del estadístico t en la prueba de hipótesis alternativa, pueden ser
utilizadas las expresiones (8), (10a) y (10b), habiendo fijado , k y n.
LOJB Página 7 de 20
Procedimiento de cálculo del tamaño de muestra n en función de los valores y en las pruebas
1. Defina el valor k de la diferencia de medias estandarizadas.
2. Defina el valor de significación y el valor del error tipo II.
3. Iniciar la primera iteración con n = 2.
4. Obtener los valores de las 𝑡 , , 𝑡 ⁄ , y𝑡 , que correspondan.
5. Con las expresiones (9) u (11) obtenga la nueva n.
6. Ajuste el valor de la nueva n con el criterio entero mayor.
7. Preguntar si la nueva n es igual a la n anterior.
. Si su respuesta es SI ha terminado el procedimiento y su valor es n nueva.
. Si su respuesta es NO ir al paso número 4 con n nueva, Si existe ciclado tomar la mayor.
Ejemplos de aplicación
LOJB Página 8 de 20
b) El mayor valor del error tipo II, permitido a su laboratorio por la certificación es max =
0.07 (ya que se espera identifique diferencias el 93% de las veces). Los valores necesarios
para obtener el estadístico 𝑡 , y consecuentemente el que se comete, requerimos la
expresión (8). Los valores son: 𝑘 = = , 𝑡 , = 2.13185. En consecuencia, el valor del
estadístico y su correspondiente valor son: 𝑡 , = 𝑡 , − 𝑘√𝑛 = 1.386494, = 0.88107. Este
valor del error tipo II representa que hasta el 88.1% de las veces se puede estar
cometiendo el error de aceptar H0 siendo esta falsa, es inaceptablemente alto.
En la tabla anterior se visualiza estable el valor a partir de la 4° iteración. Para las condiciones del
ejemplo de aplicación No. 1, se requiere un tamaño de muestra n = 90 para poder lograr asegurar
no cometer más del 5% del error tipo I y no cometer más del 7% del error tipo II. Es obvio que
valores tan altos como n = 90 muchas veces son incosteables en forma práctica. Sin embargo, la
alta certificación del laboratorio lo exige. La causa que provoca dicho tamaño de muestra es el
valor de la desviación estándar experimental s, notar que la diferencia a detectar (0.5 PPM) es
sólo un tercio del valor de la desviación (1.5 PPM).
LOJB Página 9 de 20
La prueba de hipótesis indicada en el inciso (a) es la correcta a ser aplicada. Al lograr rechazar
dicha hipótesis y con el tamaño de muestra que logra cumplir su certificación, el laboratorio
puede sustentar su resultado el cual es que el contenido de cianuro en el alimento es mayor de 12
PPM.
El siguiente ejemplo de aplicación No. 2 requiere de conocimientos previos de regresión
2. En la determinación de entalpías de formación a condiciones estándares (1 atm y 25° C),
existe base termodinámica (a partir del modelado en Química-Física) para estimar los
valores de las entalpías de los hidrocarburos saturados de la serie general CnH(2n+2) a partir
de los primeros hidrocarburos. El aspecto más importante es el número de carbones que
están contenidos en la serie general. Por lo anterior, se desarrolla en laboratorio la
medición de las 6 primeras entalpías de formación y se desea encontrar el incremento más
adecuado para los hidrocarburos más pesados, todas las entalpías de formación de estos
compuestos son exotérmicas (negativas). Las cuales son las siguientes: CH4 17889,
C2H6 20236, C3H8 24820, C4H10 30150, C5H12 35000 y C6H14 39960
cal/gmol (son reportadas en: “Una introducción a la termodinámica en ingeniería
química”, Smith and Van Ness). A continuación, se presenta una tabla la cual resume la
información y se presenta también una regresión sencilla asociando sus valores.
LOJB Página 10 de 20
Solución al ejemplo de aplicación No. 2
La ciencia y la tecnología requieren un lenguaje descriptivo altamente exacto, preciso y a la vez
lo más simple y llano. En primer lugar, Química-Física es una rama de la Fisicoquímica que
desarrolla modelos para explicar conductas fisicoquímicas previsibles de los fenómenos naturales
a falta de información experimental suficiente.
En el contexto anterior se encuentra este ejemplo, en la actualidad es obvio que se han obtenido
por diversos investigadores los valores experimentales con exactitud y precisión de a lo más ± 1%
de error. No obstante, es prudente manejarlo como ejemplo de aplicación para que el lector del
presente trabajo obtenga una visión más amplia de la necesidad de combinar conocimientos de
áreas tales como la estadística, así como áreas de la fisicoquímica.
De todas formas, se intentará refutar la sugerencia planteada por los autores haciendo la
̅
prueba correspondiente nuevamente: 𝑡 = = 0.038796, 𝑡 ⁄ , = 3.18245, no es posible
√
rechazar lo sugerido por los autores. Por el valor del estadístico (muy cercano al valor
cero), tal parece que los autores sustentaron la sugerencia mediante la información
experimental del promedio y consideraron que un error estándar de 𝑠 𝑛 = 154.653376 es
√
prudentemente pequeño para ser utilizado científicamente.
A continuación, se presenta la regresión que se obtiene utilizando los valores de la entalpía para
los 5 hidrocarburos que si contienen los enlaces C-C, observe que la pendiente de la recta de
regresión contiene el valor de 4962.8.
LOJB Página 11 de 20
La regresión muestra mejores valores para los
estadísticos R2, R2adj y se reporta la suma de
cuadrados del error en predicción PRESS, el
cual permite calcular el R2PRESS = 0.998976.
LOJB Página 12 de 20
Al no tomar la 1° diferencia k = 515/309.306751 = 1.665014 para el intervalo genera n = 9.
Utilizando el mismo valor de k pero definido como medias detectables y utilizando la potencia
genera n = 6. Lo anterior coincide con la estimación de los autores.
Una mejor estimación en la cual queda abierta en la actualidad es usando a los primeros 17
hidrocarburos eliminando el primero por las razones dadas por la química-física, la cual es la
siguiente.
LOJB Página 13 de 20
Curvas características de operación (OCC)
Como fue comentado anteriormente, éstas curvas representan el trazado de la gráfica que asocia
la probabilidad de cometer el error tipo II con la diferencia estandarizada 𝑘 = . Permiten
visualizar el cambio del valor en función del valor de la diferencia estandarizada k. Desde el
punto de vista práctico, asocia las expresiones (8) y (10c) graficando directamente el valor de
con el valor de k utilizando las tablas de la distribución t. A continuación, se presenta ejemplos de
dichas gráficas para los casos unilaterales y bilateral.
Ejemplo unilateral
Tabla de cálculos del valor desde n = 4 hasta n = 28 con cambios de 2
La tabla de cálculos adjunta
corresponde a los valores de
para cada uno de los tamaños
de muestra n asociados.
En lo general, la diferencia
estandarizada k requiere
tamaños de al menos 4.50, para
asegurar valores de menores
del 1% con nivel de
significación = 0.01. La
tabla que se presenta, requiere
valores de k mayores de 3.40,
ya que utiliza = 0.05.
Gráfica OCC correspondiente a los cálculos de la tabla anterior
En la gráfica OCC adjunta se
presentan las 13 líneas, cada
trazo corresponde a una
columna de la tabla. El trazo
más alto y amplio corresponde
a n = 4. El trazo más agudo y
vertical corresponde a n = 28.
LOJB Página 14 de 20
Ejemplo bilateral
Para efectos de comparación se colocan los mismos tamaños de muestra y los mismos cambios
del valor de k del ejemplo unilateral.
Tabla de cálculos del valor desde n = 4 hasta n = 28 con cambios de 2
En lo general, la diferencia
estandarizada k requiere
tamaños de al menos 5.20, para
asegurar valores de menores
del 1% con nivel de
significación = 0.01. La
tabla que se presenta, requiere
valores de k mayores de 3.80,
ya que utiliza = 0.05.
Consecuencia de lo anterior, el
ejemplo bilateral obtiene los
valores de mayores en forma
sistemática para las mismas
condiciones comparadas. Este
punto es importante ya que se
definirá como potencia
estadística la probabilidad
complementaria al valor
cuando se agoten los temas
relacionados a las curvas
características de operación.
LOJB Página 15 de 20
No obstante, las OCC han sido poco comprendidas por los diversos investigadores de los
aspectos científicos del conocimiento. Su desarrollo formal proviene de la probabilidad de
ocurrencia de las decisiones correctas que el investigador debe tomar posteriormente al análisis
de la información. Las decisiones correctas de la información dependen enormemente de la
aceptación previa de los riesgos en la decisión (error tipo I con valor y error tipo II con valor
), de la selección previa del tamaño de muestra menor n, de la variación inherente de la
información que se desea obtener 2 y por último, de una decisión no estadística que en lo
general es una decisión técnica del área que se está investigando la cual está representada por la
diferencia de medias d. Los valores de la probabilidad de ocurrencia en las decisiones correctas
son:
Las expresiones (12) y (13) sólo son ciertas si el investigador ha evaluado correctamente los
elementos del párrafo anterior. El análisis previo del sistema cerrado que conforman los
elementos anteriores es llamado estudio prospectivo de la potencia estadística.
LOJB Página 16 de 20
Distribución Chi-Cuadrada
Merece un especial interés por su importancia en las distribuciones de muestreo la Chi-cuadrada
ordinaria o central (la cual su parámetro de no centralidad NC se asume igual a cero). La Chi-
cuadrada ordinaria es un caso particular de la distribución de probabilidad Gamma cuando los
parámetros de la Gamma son: 𝛼 ∗ = 𝜈⁄2 y 𝜆 = 1⁄2 o bien 𝛽 = 1⁄𝜆 = 2 en los formatos
siguientes:
∗
Con el parámetro de la Gamma: 𝑓(𝑡) = ( ∗)
(𝜆𝑡) 𝑒 t>0 (14)
∗⁄ ∗⁄
𝜇=𝛼 𝜆 y 𝜎 =𝛼 𝜆
∗
Con el parámetro de la Gamma: 𝑓(𝑡) = ∗
( ∗)
𝑡 𝑒 t>0 (15)
∗ ∗
𝜇=𝛼 𝛽 y 𝜎 =𝛼 𝛽
Los 4 trazos siguientes en la figura No. 1 representan la misma gráfica modificada por la
inserción del parámetro de No Centralidad (NC o comúnmente conocido como de la Chi-
Cuadrada no central). Los trazos de la gráfica izquierda representan la función de densidad y los
trazos de la gráfica derecha representan la función de distribución.
LOJB Página 17 de 20
Pruebas de hipótesis de varianzas
Prueba Estadístico Criterio para el rechazo de H0
𝐻 :𝜎 ≤ 𝜎
𝐻 :𝜎 > 𝜎 𝜒 >𝜒 , Caso No. 4
( )
𝜒 = =
𝐻 :𝜎 ≥ 𝜎
𝐻 :𝜎 < 𝜎 𝜒 < 𝜒( ), Caso No. 5
𝜈 =𝑛−1
𝐻 :𝜎 = 𝜎 𝜒 >𝜒 ⁄ , ó cumplir
𝐻 :𝜎 ≠ 𝜎 𝜒 < 𝜒( ⁄ ), Caso No. 6
En el caso No. 6 estrictamente no deben ser las áreas de rechazo iguales a /2, sin embargo, en la
práctica se hace una tosca simplificación cuando es utilizado el valor de tablas al considerarlas
iguales. El cálculo correcto para el caso No. 6 debe considerar el mínimo tamaño del intervalo de
confianza tal que cumpla un percentil de (1 – ). Para las distribuciones normal estándar y t si
son correctas las áreas /2 ya que son simétricas, lo anterior puede demostrarse por estimación
por intervalos. Como ilustración de lo anterior, el área izquierda A1 corresponde a la condición
𝜒 < 𝜒( ), y el área derecha A2 corresponde a la condición 𝜒 > 𝜒 , donde los factores f1 y f2
de las áreas corresponden al % de que utilicemos. La distancia L corresponde al intervalo de
confianza a un percentil de (1 – ) en las siguientes figuras No. 2 (a, b, c, d y e).
LOJB Página 18 de 20
Figura 2c para = 30 Figura 2d para = 10
Figura 2e para = 4
Como resumen para el nivel de significación del 5%, se presenta la siguiente figura No. 3a que
presenta las proporciones del área izquierda A1 y el área derecha A2 a diversos grados de libertad.
Caso 6a
( )
𝐻 :𝜎 = 𝜎 𝜒 = =
𝐻 :𝜎 ≠ 𝜎 𝜈 =𝑛−1
Con el siguiente criterio para el rechazo.
𝜒 < 𝜒( ), ó cumplir 𝜒 > 𝜒 , .
LOJB Página 19 de 20
Una aproximación razonable para el valor de f2 es la siguiente ecuación, donde X1 es el nivel de
significación (0.005, 0.01, 0.05 y 0.10) y X2 es el logaritmo natural de los grados de libertad. El
rango recomendable de utilización de esta ecuación es de 5 a 1000 grados de libertad.
Response f2
Summary of Fit Analysis of Variance
RSquare 0.991308 Source DF Sum of Squares Mean Square F Ratio
RSquare Adj 0.99064 Model 5 1.9913076 0.398262 1482.689
RCuadrada Press 0.989363 Error 65 0.0174595 0.000269 Prob > F
Root Mean Square Error 0.016389 C. Total 70 2.0087671 <.0001
Mean of Response 0.764405
Observations (or Sum Wgts) 71
Ya que siempre es preferible obtener menor varianza, se recomienda evitar prueba de igualdad de
varianza, usar preferentemente el caso No. 4 (𝐻 : 𝜎 ≤ 𝜎 ).
LOJB Página 20 de 20