Está en la página 1de 20

Las pruebas de hipótesis estadísticas

En este trabajo se consideran varios supuestos iniciales los cuales son:


1. La información X se encuentra normalmente distribuida con media  y varianza 2.
Además, se encuentra bajo condiciones claramente definidas para esta población X.
2. La información individual xi por pertenecer a la población X la cual es muy grande o
tendiente a infinito, es mantenida bajo las mismas condiciones de obtención de
información a la cual la población X es sometida.
3. La información individual xi es muestreada mediante un tamaño de muestra n proveniente
de la población X la cual tiene un tamaño N >> n (N es muy grande o infinita en
comparación con n, es decir el factor de corrección por reemplazo tiende a 1: (N-n)/(N-1)
=> 1). Sean xi y xj dos informaciones individuales pertenecientes a X, entonces las
informaciones xi y xj no se encuentran correlacionadas, es decir al ser X población normal
las informaciones individuales son independientes entre sí.
4. Al definir un valor  de probabilidad de cometer el error tipo I (también llamado nivel de
significación), entonces (1 – ) representa la probabilidad de la confianza de no cometer
el error tipo I. De lo anterior, proviene la obtención de un intervalo de confianza con un
percentil de (1 – ).
5. El tamaño n de la muestra debe asegurar al menos la información minoritaria de X que se
encuentra en estudio para que pueda ser detectada dicha información.

Pruebas de hipótesis más comunes


En forma teórica la información X se está postulando que se encuentra normalmente distribuida y
para hacer suposiciones sobre el valor de la media , es necesario conocer el valor de la
desviación estándar o bien el valor de la varianza 2. En la práctica, tanto en el desarrollo de
encuestas como en la planificación de un experimento. El parámetro varianza o bien su raíz
cuadrada que es la desviación estándar, es un parámetro de segunda clasificación u orden (esto
último representa que se estima después de haber estimado la media), en consecuencia,
requerimos del mismo tamaño de muestra n para estimar el valor de la desviación estándar o
varianza de la muestra s2. Lo anterior lleva a que las pruebas de hipótesis de medias manejan el
estadístico “the student o t” y no la normal estándar “z”.

Prueba de hipótesis de medias


Prueba Estadístico Criterio para el rechazo de H0
𝐻 :𝜇 ≤ 𝜇
𝐻 :𝜇 > 𝜇 𝑡 >𝑡 , Caso No. 1
̅
𝑡 =

𝐻 :𝜇 ≥ 𝜇
𝐻 :𝜇 < 𝜇 𝑡 < −𝑡 , Caso No. 2
𝜈 =𝑛−1
𝐻 :𝜇 = 𝜇
𝐻 :𝜇 ≠ 𝜇 |𝑡 | > 𝑡 ⁄ , Caso No. 3

Las gráficas asociadas a cada una de las pruebas de hipótesis como ejemplo con el valor de 0 =
5, son las siguientes.

LOJB Página 1 de 20
Gráfica caso No. 1

H0

d 

Fuente: Elaboración propia con el archivo Excel H0H1.xlsm


Gráfica caso No. 2

H0

 d

Fuente: Elaboración propia con el archivo Excel H0H1.xlsm


Gráfica caso No. 3

H0

 d 

Fuente: Elaboración propia con el archivo Excel H0H1.xlsm

Las zonas  y /2 son las regiones de rechazo de H0. Los valores 𝑡 , y 𝑡 ⁄ , son obtenidos a
partir de la tabla de áreas de la distribución t. Para la planificación de encuestas como
instrumento de obtención de información interesan los valores estimados para la media , dados
por los intervalos de confianza a un percentil (1 – ).

LOJB Página 2 de 20
Tamaño de muestra para el intervalo de confianza con un percentil (1 – )
La determinación de los valores estimados de la media  en los intervalos de confianza tienen las
siguientes expresiones.

Para el caso No. 1 es: 𝜇 ≤ 𝑥̅ + 𝑡 , (1)


Para el caso No. 2 es: 𝜇 ≥ 𝑥̅ − 𝑡 , (2)


Para el caso No. 3 es: 𝑥̅ − 𝑡 ⁄ , ≤ 𝜇 ≤ 𝑥̅ + 𝑡 ⁄ , (3)


√ √

En las expresiones (1), (2) y (3) anteriores, los términos 𝑡 , y 𝑡 ⁄ , representan tolerancias
√ √
permitidas por la estadística.

Para los casos unilaterales (1) y (2) es posible definir dicha tolerancia como una diferencia o
tamaño de tolerancia del intervalo como: 𝑑 = 𝑡 , . Para el caso bilateral (3) es posible definir

dicha tolerancia directamente como el tamaño del intervalo mediante: 𝑑 = 𝑡 ⁄ , . Estos

tamaños de tolerancia pueden ser previamente planificados por el diseñador de la encuesta. Es
necesario aclarar que estas tolerancias o diferencias no controlan los valores de probabilidad que
podemos cometer del error tipo II cuyo valor es , únicamente controlan el tamaño del intervalo
de confianza el cual está relacionado exclusivamente con el nivel de significación , la
desviación estándar s y el tamaño de la muestra n.

En consecuencia, los aspectos involucrados en el tamaño del intervalo de confianza son cuatro:
1. El nivel de significación  o bien el percentil (1 – ).
2. La desviación estándar s que se obtiene con la información generada.
3. El tamaño de muestra n a utilizar para obtener la información.
4. El tamaño de tolerancia d que es definida previamente por el diseñador de la encuesta.

Sea 𝑘 = la diferencia o tolerancia estandarizada, esta definición permite obtener la tolerancia


por cada unidad de la desviación estándar s. Las expresiones de los casos son las siguientes.

,
Para los casos No.1 y No. 2 son: 𝑛= casos unilaterales (4)

⁄ ,
Para el caso No. 3 es: 𝑛= caso bilateral (5)

Las expresiones (4) y (5) permiten calcular el tamaño de muestra n solo con el criterio único de
cumplimiento del percentil (1 – ) y tamaño de tolerancia d con referencia a la desviación
estándar s que se obtenga de la información muestral.

A continuación, se presenta el procedimiento de cálculo con las expresiones (4) y (5).

LOJB Página 3 de 20
Procedimiento de cálculo del tamaño de muestra n en función del tamaño del intervalo deseado
1. Defina el valor k deseado para el intervalo de confianza.
2. Defina el valor de significación .
3. Iniciar la primera iteración con n = 2.
4. Obtener el valor de la t correspondiente.
5. Con las expresiones (4) o (5) obtenga la nueva n.
6. Ajuste el valor de la nueva n con el criterio entero mayor.
7. Preguntar si la nueva n es igual a la n anterior.
. Si su respuesta es SI ha terminado el procedimiento y su valor es n nueva.
. Si su respuesta es NO ir al paso número 4, con n nueva. Si existe ciclado tomar la mayor.

A continuación, se ejemplifica el procedimiento anterior con  = .05, k = 0.20 bilateral y k = 0.10


unilateral.

Fuente: Elaboración propia con el archivo excel Valztjf.xls

En ambos casos la tolerancia del intervalo de confianza representa el 10% del valor de la
desviación estándar y se obtuvieron estables los valores en la cuarta iteración. Los resultados son
para el caso bilateral un tamaño de muestra de 387 y para los casos unilaterales un tamaño de
muestra de 273.

Algunas veces puede resultar un ciclado iterativo por el criterio de entero mayor que es necesario
para la igualación algebraica, como ejemplo se utiliza a continuación los siguientes valores:  =
.05, k = 0.76 bilateral y k = 0.38 unilateral que a continuación se presenta.

LOJB Página 4 de 20
Fuente: Elaboración propia con el archivo Excel Valztjf.xls

En ambos casos la tolerancia del intervalo de confianza representa el 38% del valor de la
desviación estándar, se observa en el caso bilateral un ciclado iterativo a partir de la 5° iteración.
En los casos unilaterales se observa estable desde la 4° iteración. Los resultados son para el caso
bilateral un tamaño de muestra de 30 y para los casos unilaterales un tamaño de muestra de 21.

El tamaño de muestra n en las pruebas de hipótesis tal que cumplan a lo más los valores  y  de
los errores tipos I y II.

En los trabajos técnicos y científicos es necesario en la etapa de planificación, tener controlados


los valores de los dos tipos de error que podemos cometer. Los valores de las probabilidades
están definidos mediante las siguientes expresiones.

Para el error tipo I: 𝛼 = 𝑃 [(𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻 )⁄(𝐻 𝑒𝑠 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑎)] (6)

Para el error tipo II: 𝛽 = 𝑃[(𝑎𝑐𝑒𝑝𝑡𝑎𝑟 𝐻 )⁄(𝐻 𝑒𝑠 𝑓𝑎𝑙𝑠𝑎)] (7)

Al postular una prueba de hipótesis estadística, se inicia probando un valor supuesto por el
investigador (0), éste es colocado en la H0, comúnmente conocida con el nombre de hipótesis
nula. Si es rechazada la hipótesis H0, entonces es directamente aceptada la hipótesis alternativa
H1, esto es cierto puesto que el investigador acepta utilizar el riesgo en su decisión mediante el
uso del valor  o nivel de significación de la prueba.

LOJB Página 5 de 20
Sin embargo, al no lograr rechazar la H0, no es posible directamente aceptar H0, esto es cierto si
el investigador no ha previsto el riesgo de cometer el error tipo II. El no lograr rechazar H0 solo
asegura estar en el intervalo de confianza con un percentil (1 – ) y esto último no es suficiente
para controlar los errores I y II que pueden ser cometidos en las decisiones.

Curvas características de operación (OCC) y estudio prospectivo de la potencia estadística

Se definen las curvas características de operación como el trazado de la gráfica que asocia la
probabilidad de cometer el error tipo II con una diferencia estandarizada 𝑘 = que representa la
diferencia de medias (0 y 1) por cada unidad de desviación estándar s.

Donde 0 es la media que se somete a prueba en la H0 (Casos No. 1, No. 2 y No. 3) y 1 es la


media la cual el investigador considera técnicamente que no puede pertenecer a la población H0.

Para las curvas características de operación de pruebas de medias, se define una distancia de
medias d en la siguiente forma. Sea 𝑑 = |𝜇 − 𝜇 | esta expresión representa la distancia menor
que se detecta en las condiciones planteadas por las pruebas de hipótesis H0 y H1. La distancia d
es un valor que proviene de la propia naturaleza del fenómeno en estudio.

En las siguientes tres figuras, se representan los casos Nos. 1, 2 y 3. Para efectos gráficos, se ha
considerado 0 = 12 en los tres casos. Para el caso 1: 1 = 14, para el caso 2: 1 = 10 y para el
caso 3: 1 = 14.3151. Las distancias d son. Para el caso 1: d = 2, para el caso 2: d = 2 y para el
caso 3: d = 2.3151. En todos los casos, la desviación estándar poblacional se ha mantenido en 1,
es decir  = 1.

Las expresiones de cálculo para los estadísticos t y para el tamaño muestral n son las siguientes
(en el caso 3, LI es límite inferior, LS es límite superior).

Casos No. 1 y No. 2:

Para el estadístico t: 𝑡 , =𝑡 , − 𝑘 √𝑛 (8)

, ,
Para el tamaño muestral n: 𝑛= (9)

Caso No. 3:

Para el estadístico t: 𝑡 , = −𝑡 ⁄ , − 𝑘 √𝑛 (10a)


𝑡 , =𝑡 , + 2𝑡 ⁄ , (10b)
O bién: 𝑡 , =𝑡 ⁄ , − 𝑘 √𝑛 (10c)

⁄ , ,
Para el tamaño muestral n: 𝑛= (11)

LOJB Página 6 de 20
Gráfica caso No. 1

H0 H1

 

d
Fuente: Elaboración propia con el archivo Excel H0H1.xlsm
Gráfica caso No. 2

H1 H0

 

Fuente: Elaboración propia con el archivo Excel H0H1.xlsm


Gráfica caso No. 3

H0 H1



 

Fuente: Elaboración propia con el archivo Excel H0H1.xlsm

Las expresiones (8) y (10c) permiten conocer el valor , habiendo fijado , k y n. Si se requiere
el tamaño de muestra n, es posible utilizar las expresiones (9) y (11) habiendo fijado ,  y k. Si
se desea obtener los valores del estadístico t en la prueba de hipótesis alternativa, pueden ser
utilizadas las expresiones (8), (10a) y (10b), habiendo fijado , k y n.

LOJB Página 7 de 20
Procedimiento de cálculo del tamaño de muestra n en función de los valores  y  en las pruebas
1. Defina el valor k de la diferencia de medias estandarizadas.
2. Defina el valor de significación  y el valor  del error tipo II.
3. Iniciar la primera iteración con n = 2.
4. Obtener los valores de las 𝑡 , , 𝑡 ⁄ , y𝑡 , que correspondan.
5. Con las expresiones (9) u (11) obtenga la nueva n.
6. Ajuste el valor de la nueva n con el criterio entero mayor.
7. Preguntar si la nueva n es igual a la n anterior.
. Si su respuesta es SI ha terminado el procedimiento y su valor es n nueva.
. Si su respuesta es NO ir al paso número 4 con n nueva, Si existe ciclado tomar la mayor.

Ejemplos de aplicación

1. El asistente químico de su laboratorio acaba de identificar la presencia de al menos 12 mg.


de cianuro por cada Kg. de alimento para humanos (12 PPM), recurre a usted y le entrega
esta información. Se comenta que la prueba desarrollada en el laboratorio fue la siguiente:
Ho:  >= o con un valor o de 12 PPM, el tamaño de la muestra fue 5 y obtuvo una
media de 11.8 PPM, una desviación estándar muestral de 1.5 PPM, aplicando un nivel de
significación del 5%. Se considera que su laboratorio se encuentra con la más alta
certificación y al menos debe detectar diferencias en los resultados de 0.5 PPM el 93% de
las veces usando un nivel de significación de  = 5%.
a) Comentar el sentido de la prueba y verificar los resultados obtenidos por el asistente.
b) Con el tamaño de muestra 5, obtener la probabilidad de ocurrencia del error tipo II ().
c) Determine el tamaño de muestra n para la información de este ejercicio y comente la
causa que provoca dicho tamaño de muestra.

Solución del ejemplo de aplicación No. 1


a) En primer lugar, el asistente planeó en forma incorrecta la prueba de hipótesis. La
substancia conocida como cianuro no debe estar presente en el alimento ya que es
altamente tóxica y letal para los humanos. La prueba de hipótesis unilateral a plantear es:
Ho:  <= o ya que en esta suposición si se encuentra contenido el resultado técnico
correcto de 0 PPM.
La razón de haber recurrido a usted radica en el hecho de que el estadístico (caso No. 2)
es: t0 = -0.2981 y al aplicar el criterio para el rechazo, no logra rechazar su H0, ya que no
cumple el criterio: -0.2981 < -2.13185. Sin embargo, el planteamiento incorrecto del
sentido de H0, no es el principal problema ya que si se hace el sentido correcto de la
prueba también no logra ser rechazada (caso No. 1) -0.2981 > 2.13185.
El problema principal consiste en el valor del error estándar 𝑠 𝑛 que hace que el

estadístico t0 obtenga un valor demasiado pequeño para comprobarse en la H0 planteada.
Para lograr que el estadístico t0 sea grande, el error estándar 𝑠 𝑛 deberá ser pequeño.

Conforme a lo anterior, sólo se logrará disminuir el error estándar reduciendo el valor de s
mediante equipos de medición más exactos y precisos, o bien aumentando el número de
réplicas experimentales n.

LOJB Página 8 de 20
b) El mayor valor del error tipo II, permitido a su laboratorio por la certificación es max =
0.07 (ya que se espera identifique diferencias el 93% de las veces). Los valores necesarios
para obtener el estadístico 𝑡 , y consecuentemente el  que se comete, requerimos la
expresión (8). Los valores son: 𝑘 = = , 𝑡 , = 2.13185. En consecuencia, el valor del
estadístico y su correspondiente valor  son: 𝑡 , = 𝑡 , − 𝑘√𝑛 = 1.386494,  = 0.88107. Este
valor del error tipo II representa que hasta el 88.1% de las veces se puede estar
cometiendo el error de aceptar H0 siendo esta falsa, es inaceptablemente alto.

c) Ya que el análisis del contenido de cianuro en el alimento inicialmente se efectuó con un


tamaño de muestra pequeño, es necesario reducir el error estándar del estadístico to
aumentando n, el estimador s de la desviación estándar no es posible reducirlo puesto que
depende de la experimentación y de los equipos de medición.

A continuación, se ejemplifica el cálculo correspondiente con la expresión (9).


Cálculo del tamaño de muestra n

Fuente: Elaboración propia con el archivo Excel Valztjf.xls

En la tabla anterior se visualiza estable el valor a partir de la 4° iteración. Para las condiciones del
ejemplo de aplicación No. 1, se requiere un tamaño de muestra n = 90 para poder lograr asegurar
no cometer más del 5% del error tipo I y no cometer más del 7% del error tipo II. Es obvio que
valores tan altos como n = 90 muchas veces son incosteables en forma práctica. Sin embargo, la
alta certificación del laboratorio lo exige. La causa que provoca dicho tamaño de muestra es el
valor de la desviación estándar experimental s, notar que la diferencia a detectar (0.5 PPM) es
sólo un tercio del valor de la desviación (1.5 PPM).

LOJB Página 9 de 20
La prueba de hipótesis indicada en el inciso (a) es la correcta a ser aplicada. Al lograr rechazar
dicha hipótesis y con el tamaño de muestra que logra cumplir su certificación, el laboratorio
puede sustentar su resultado el cual es que el contenido de cianuro en el alimento es mayor de 12
PPM.
El siguiente ejemplo de aplicación No. 2 requiere de conocimientos previos de regresión
2. En la determinación de entalpías de formación a condiciones estándares (1 atm y 25° C),
existe base termodinámica (a partir del modelado en Química-Física) para estimar los
valores de las entalpías de los hidrocarburos saturados de la serie general CnH(2n+2) a partir
de los primeros hidrocarburos. El aspecto más importante es el número de carbones que
están contenidos en la serie general. Por lo anterior, se desarrolla en laboratorio la
medición de las 6 primeras entalpías de formación y se desea encontrar el incremento más
adecuado para los hidrocarburos más pesados, todas las entalpías de formación de estos
compuestos son exotérmicas (negativas). Las cuales son las siguientes: CH4  17889,
C2H6  20236, C3H8  24820, C4H10  30150, C5H12  35000 y C6H14  39960
cal/gmol (son reportadas en: “Una introducción a la termodinámica en ingeniería
química”, Smith and Van Ness). A continuación, se presenta una tabla la cual resume la
información y se presenta también una regresión sencilla asociando sus valores.

La asociación en eje X es el número de carbones, en


el eje Y es el valor correspondiente de la entalpía de
formación.

Los autores Smith and Van Ness comentan que en


forma aproximada y ante ausencia de datos de labo-
ratorio, puede ser estimada la entalpía de formación
por cada carbono adicional, aumentando 4925 cal/gmol.

a) ¿Lo reportado por Smith and Van Ness puede ser


refutado o aclarado? Comente sus resultados.

b) ¿Qué tamaño de muestra debe tomarse para


detectar diferencias de 515 al menos el 85% de las
veces? La diferencia de 515 es obtenida mediante la
resta (4925 – 4414.2 = 510.8 para asegurar mayor
diferencia se tomó 515), esta diferencia sólo es con
respecto a la tolerancia experimental del intervalo de
confianza al 95%.

c) No obstante lo anterior, aclare el sustento de los


autores el cual no se encuentra equivocado en lo
general, sin embargo, con la utilización de mayor
información actualmente es posible identificar
aspectos de los enlaces C-C y C-H con ayuda de
la estadística.

LOJB Página 10 de 20
Solución al ejemplo de aplicación No. 2
La ciencia y la tecnología requieren un lenguaje descriptivo altamente exacto, preciso y a la vez
lo más simple y llano. En primer lugar, Química-Física es una rama de la Fisicoquímica que
desarrolla modelos para explicar conductas fisicoquímicas previsibles de los fenómenos naturales
a falta de información experimental suficiente.

En el contexto anterior se encuentra este ejemplo, en la actualidad es obvio que se han obtenido
por diversos investigadores los valores experimentales con exactitud y precisión de a lo más ± 1%
de error. No obstante, es prudente manejarlo como ejemplo de aplicación para que el lector del
presente trabajo obtenga una visión más amplia de la necesidad de combinar conocimientos de
áreas tales como la estadística, así como áreas de la fisicoquímica.

a) Desde el punto de vista estadístico únicamente, es posible buscar la refutación haciendo


una prueba de hipótesis del tipo caso 3 (prueba de igualdad 𝐻 : 𝜇 = 𝜇 , donde 𝜇 = 4925).
El valor n a ser utilizado es: n = 5 ya que es asociado al incremento de un carbono en las
̅
estructuras de hidrocarburos pesados. El valor obtenido del estadístico es: 𝑡 = =

−0.962861. El criterio para el rechazo de H0 utiliza el valor de 𝑡 ⁄ , = 2.77645, en
consecuencia, no es posible rechazar lo sugerido por los autores, pero no convence el
valor promedio encontrado en las diferencias.

Combinando conocimientos fisicoquímicos de energías de enlace C-C y C-H, la prueba


anterior tiene una falla. En el metano (CH4) no existen enlaces C-C ya que existe solo un
carbono, esta es la causa que la primera diferencia sea menor que las demás. En
consecuencia, no debe tomarse la primera diferencia energética de los hidrocarburos. Los
datos deben modificarse y son los siguientes: n = 4, 𝑥̅ = 4931, 𝑠 = 309.306751731. Ahora
bien, con estos nuevos valores toma sentido la sugerencia planteada por los autores,
además debe observar la disminución del valor de la desviación estándar de 1186.23952 a
309.306751731, lo anterior es muy importante para el inciso (b) de este ejercicio.

De todas formas, se intentará refutar la sugerencia planteada por los autores haciendo la
̅
prueba correspondiente nuevamente: 𝑡 = = 0.038796, 𝑡 ⁄ , = 3.18245, no es posible

rechazar lo sugerido por los autores. Por el valor del estadístico (muy cercano al valor
cero), tal parece que los autores sustentaron la sugerencia mediante la información
experimental del promedio y consideraron que un error estándar de 𝑠 𝑛 = 154.653376 es

prudentemente pequeño para ser utilizado científicamente.

Conclusión preliminar del inciso (a)


No es refutable lo sugerido por los autores, sin embargo, es necesario aclarar que el valor del
error estándar representa un 3.14% del valor sugerido por ellos como diferencia de adición por
cada carbono en los hidrocarburos. La conclusión del inciso (a) lleva lógicamente a estimar si el
tamaño de muestra de n = 4 es suficiente para el valor sugerido.

A continuación, se presenta la regresión que se obtiene utilizando los valores de la entalpía para
los 5 hidrocarburos que si contienen los enlaces C-C, observe que la pendiente de la recta de
regresión contiene el valor de 4962.8.

LOJB Página 11 de 20
La regresión muestra mejores valores para los
estadísticos R2, R2adj y se reporta la suma de
cuadrados del error en predicción PRESS, el
cual permite calcular el R2PRESS = 0.998976.

El valor anterior, representa que la regresión


permite justificar el 99.89% de los valores en
predicción. Para el inciso (b) siguiente, en
primer lugar se calculará lo que se solicita. En
segundo lugar se modificará lo que se solicita
para estimar el tamaño de la muestra n
requerida para hacer estimaciones válidas en
el área de la química-física aplicada a los
hidrocarburos.

La siguiente tabla presenta los valores


experimentales reportados por las empresas
Monsanto. Los promedios 1 y 2 representan
los valores desde el hidrocarburo de 1 o 2
carbones. En la misma forma son las
desviaciones.

Uno de los aspectos importantes otorgados por la química-


física es el referente a la eliminación de la 1° diferencia
ya que no contiene enlaces C-C. Un segundo aspecto es el
posible efecto de los últimos orbitales de los carbones
enlazados con los hidrógenos acompañantes. Por la
información de la tabla llevada hasta el carbono 17 es
posible observar estabilización a partir de la 6° diferencia.

Lo anterior hace evidente que los autores estiman 4925 solo


como promedio de 7 carbones en adelante.

b) La diferencia de 515 sólo representa tamaño de intervalo, en consecuencia, no utiliza el


valor de la potencia dada de 85%. El valor de k = 515/1186.23952 = 0.434145 para el
intervalo genera n = 84. Utilizando el mismo valor de k pero definido como diferencia de
medias detectables y utilizando la potencia genera n = 50. Sin embargo, no es correcto la
utilización de la 1° diferencia.

LOJB Página 12 de 20
Al no tomar la 1° diferencia k = 515/309.306751 = 1.665014 para el intervalo genera n = 9.
Utilizando el mismo valor de k pero definido como medias detectables y utilizando la potencia
genera n = 6. Lo anterior coincide con la estimación de los autores.

Una mejor estimación en la cual queda abierta en la actualidad es usando a los primeros 17
hidrocarburos eliminando el primero por las razones dadas por la química-física, la cual es la
siguiente.

Actualmente a esta área se le nombra quimiometría, la


regresión que se presenta adjunta genera una estimación por
carbono de 4934 cal/gmol. Puede observarse que la relación
de estimación está dada por la siguiente expresión.

𝑌 = 10309.25 + 4934𝑋 Ecuación de relación

c) Existe confirmación en lo desarrollado para concluir que


los autores no se encuentran equivocados, sin embargo, la
estimación de la ecuación de relación incluye las
inestabilidades C-H de bajo número de carbonos.
Las inestabilidades presentadas en los hidrocarburos de
menor número de carbones tiende a disminuir en los
hidrocarburos de mayor número de carbones.

El promedio que es posible tomar como estimación es:


4927.6 cal/gmol. Este valor es el más exacto como puede
ser observado en la siguiente figura. En consecuencia, para
hidrocarburos de más de 17 carbones la estimación correcta
debe ser 4927.6 cal/gmol ya que evadimos la inestabilidad
provocada por las interacciones C-H.

LOJB Página 13 de 20
Curvas características de operación (OCC)
Como fue comentado anteriormente, éstas curvas representan el trazado de la gráfica que asocia
la probabilidad de cometer el error tipo II con la diferencia estandarizada 𝑘 = . Permiten
visualizar el cambio del valor  en función del valor de la diferencia estandarizada k. Desde el
punto de vista práctico, asocia las expresiones (8) y (10c) graficando directamente el valor de 
con el valor de k utilizando las tablas de la distribución t. A continuación, se presenta ejemplos de
dichas gráficas para los casos unilaterales y bilateral.

Ejemplo unilateral
Tabla de cálculos del valor  desde n = 4 hasta n = 28 con cambios de 2
La tabla de cálculos adjunta
corresponde a los valores de 
para cada uno de los tamaños
de muestra n asociados.

Puede observarse que a mayor


tamaño de muestra n con valor
k constante, el valor de la
probabilidad de cometer el
error tipo II ( ) tiende a
disminuir. De la misma forma,
al mantener constante n, a
mayor valor de k, el valor del
error tipo II ( ) disminuye.

En lo general, la diferencia
estandarizada k requiere
tamaños de al menos 4.50, para
asegurar valores de  menores
del 1% con nivel de
significación  = 0.01. La
tabla que se presenta, requiere
valores de k mayores de 3.40,
ya que utiliza  = 0.05.
Gráfica OCC correspondiente a los cálculos de la tabla anterior
En la gráfica OCC adjunta se
presentan las 13 líneas, cada
trazo corresponde a una
columna de la tabla. El trazo
más alto y amplio corresponde
a n = 4. El trazo más agudo y
vertical corresponde a n = 28.

Fuente: Elaboración propia con el archivo Excel TABLAS.xls

LOJB Página 14 de 20
Ejemplo bilateral
Para efectos de comparación se colocan los mismos tamaños de muestra y los mismos cambios
del valor de k del ejemplo unilateral.
Tabla de cálculos del valor  desde n = 4 hasta n = 28 con cambios de 2
En lo general, la diferencia
estandarizada k requiere
tamaños de al menos 5.20, para
asegurar valores de  menores
del 1% con nivel de
significación  = 0.01. La
tabla que se presenta, requiere
valores de k mayores de 3.80,
ya que utiliza  = 0.05.

Consecuencia de lo anterior, el
ejemplo bilateral obtiene los
valores de  mayores en forma
sistemática para las mismas
condiciones comparadas. Este
punto es importante ya que se
definirá como potencia
estadística la probabilidad
complementaria al valor 
cuando se agoten los temas
relacionados a las curvas
características de operación.

Gráfica OCC correspondiente a los cálculos de la tabla anterior


De igual forma que los casos
unilaterales, la gráfica adjunta
OCC, representa los 13 trazos
que corresponden a las
columnas de la tabla. El trazo
amplio y alto es para n = 4,
el trazo agudo y vertical es
para n = 28.

Fuente: Elaboración propia con el archivo Excel TABLAS.xls

Las gráficas de curvas características de operación o funcionamiento OCC (Operation


Characteristics Curves), han sido de gran utilidad práctica para que el experimentador en su etapa
de planificación pueda estimar el tamaño de muestra n menor tal que asegure no cometer mayor
valor de los errores tipo I y II permitidos en sus riesgos de decisión.

LOJB Página 15 de 20
No obstante, las OCC han sido poco comprendidas por los diversos investigadores de los
aspectos científicos del conocimiento. Su desarrollo formal proviene de la probabilidad de
ocurrencia de las decisiones correctas que el investigador debe tomar posteriormente al análisis
de la información. Las decisiones correctas de la información dependen enormemente de la
aceptación previa de los riesgos en la decisión (error tipo I con valor  y error tipo II con valor
), de la selección previa del tamaño de muestra menor n, de la variación inherente de la
información que se desea obtener 2 y por último, de una decisión no estadística que en lo
general es una decisión técnica del área que se está investigando la cual está representada por la
diferencia de medias d. Los valores de la probabilidad de ocurrencia en las decisiones correctas
son:

Para el intervalo de confianza: (1 − 𝛼) = 𝑃[(𝑎𝑐𝑒𝑝𝑡𝑎𝑟 𝐻 )⁄(𝐻 𝑒𝑠 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑎)] (12)

Para la potencia de la prueba: (1 − 𝛽) = 𝑃[(𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻 )⁄(𝐻 𝑒𝑠 𝑓𝑎𝑙𝑠𝑎)] (13)

Las expresiones (12) y (13) sólo son ciertas si el investigador ha evaluado correctamente los
elementos del párrafo anterior. El análisis previo del sistema cerrado que conforman los
elementos anteriores es llamado estudio prospectivo de la potencia estadística.

Estudio prospectivo de la potencia estadística para pruebas de medias sencillas, casos 1, 2 y 3


Como se observa en las expresiones (12) y (13), las decisiones correctas que puede tomar el
investigador son decisiones condicionadas al sentido con que haya formulado la hipótesis nula
H0. El intervalo de confianza con un percentil (1 – ), solo es cierto únicamente bajo la
suposición de H0 cierta. En consecuencia, el investigador debe formular su hipótesis conteniendo
el valor técnicamente correcto en la misma (ver inciso (a) del ejemplo de aplicación No. 1),
cualquier otra forma de plantear su hipótesis automáticamente hace inválido todo trabajo.

Los elementos que conforman el estudio prospectivo de la potencia son:


1. El valor del error tipo I () que el investigador acepta a lo más cometer previa a la captura
de la información. A este valor frecuentemente se le ha llamado: Nivel de significación,
en el sector productivo y comercial se le ha llamado Riesgo del fabricante.
2. El tamaño de la muestra n que el investigador decide usar previa a la captura de la
información para posteriormente analizarla.
3. La determinación del menor tamaño del efecto que el investigador desea detectar en la
prueba estadística. Este tamaño de efecto está representado por la diferencia de medias
𝑑 = |𝜇 − 𝜇 | la cual ya fue tratada.
4. La determinación del menor valor de la potencia (1 –  ) que el investigador desea
asegurar en su decisión. O bien, el valor mayor del error tipo II ( ) que el investigador se
permitirá cometer en su decisión. El error tipo II en el sector productivo y comercial se le
ha llamado Riesgo del cliente o consumidor.
5. La variación inherente 2 de la información que obtiene en la captura de esta.

LOJB Página 16 de 20
Distribución Chi-Cuadrada
Merece un especial interés por su importancia en las distribuciones de muestreo la Chi-cuadrada
ordinaria o central (la cual su parámetro de no centralidad NC se asume igual a cero). La Chi-
cuadrada ordinaria es un caso particular de la distribución de probabilidad Gamma cuando los
parámetros de la Gamma son: 𝛼 ∗ = 𝜈⁄2 y 𝜆 = 1⁄2 o bien 𝛽 = 1⁄𝜆 = 2 en los formatos
siguientes:

Con el parámetro  de la Gamma: 𝑓(𝑡) = ( ∗)
(𝜆𝑡) 𝑒 t>0 (14)
∗⁄ ∗⁄
𝜇=𝛼 𝜆 y 𝜎 =𝛼 𝜆


Con el parámetro  de la Gamma: 𝑓(𝑡) = ∗
( ∗)
𝑡 𝑒 t>0 (15)
∗ ∗
𝜇=𝛼 𝛽 y 𝜎 =𝛼 𝛽

Chi-cuadrada ordinaria o central: 𝑓(𝑥) = ( ⁄ )


𝑥 𝑒 x>0 (16)
𝜇= 2=𝜈 y 𝜎 = 4 = 2𝜈

En la expresión (16) la variable aleatoria x es chi-cuadrada ordinaria o central (llamada Chi-


cuadrada), esta función de densidad de probabilidad genera la distribución Chi-cuadrada. El
comportamiento de la variable x (eje horizontal x2 de las gráficas) está representado en el primer
trazo “J2Gl0” de ambas gráficas con 4 grados de libertad en la siguiente figura No. 1.

Figura No. 1 Chi-Cuadrada No Central (NC ≥ 0), con 4 grados de libertad


Densidad de probabilidad,  = 4; NC = 0,2,4,6 y 8 Distribución de probabilidad,  = 4; NC = 0,2,4,6 y 8

Fuente: Elaboración propia con el programa JMP archivo Chicuadrada.jmp

Los 4 trazos siguientes en la figura No. 1 representan la misma gráfica modificada por la
inserción del parámetro de No Centralidad (NC o comúnmente conocido como  de la Chi-
Cuadrada no central). Los trazos de la gráfica izquierda representan la función de densidad y los
trazos de la gráfica derecha representan la función de distribución.

Para no confundir el parámetro  de la Gamma (expresión 14) con el parámetro de no centralidad


de la Chi-cuadrada no central , se prefiere manejar en la Gamma el parámetro de escala  = 1/,
tal como se presenta en la expresión 15. En el área de las pruebas de hipótesis, es posible plantear
las pruebas de varianzas utilizando el estadístico 2, denotando a la Chi-cuadrada ordinaria o
central cuya área de comparación es el nivel de significación , con  grados de libertad.

LOJB Página 17 de 20
Pruebas de hipótesis de varianzas
Prueba Estadístico Criterio para el rechazo de H0
𝐻 :𝜎 ≤ 𝜎
𝐻 :𝜎 > 𝜎 𝜒 >𝜒 , Caso No. 4
( )
𝜒 = =
𝐻 :𝜎 ≥ 𝜎
𝐻 :𝜎 < 𝜎 𝜒 < 𝜒( ), Caso No. 5
𝜈 =𝑛−1
𝐻 :𝜎 = 𝜎 𝜒 >𝜒 ⁄ , ó cumplir
𝐻 :𝜎 ≠ 𝜎 𝜒 < 𝜒( ⁄ ), Caso No. 6

En el caso No. 6 estrictamente no deben ser las áreas de rechazo iguales a /2, sin embargo, en la
práctica se hace una tosca simplificación cuando es utilizado el valor de tablas al considerarlas
iguales. El cálculo correcto para el caso No. 6 debe considerar el mínimo tamaño del intervalo de
confianza tal que cumpla un percentil de (1 – ). Para las distribuciones normal estándar y t si
son correctas las áreas /2 ya que son simétricas, lo anterior puede demostrarse por estimación
por intervalos. Como ilustración de lo anterior, el área izquierda A1 corresponde a la condición
𝜒 < 𝜒( ), y el área derecha A2 corresponde a la condición 𝜒 > 𝜒 , donde los factores f1 y f2
de las áreas corresponden al % de  que utilicemos. La distancia L corresponde al intervalo de
confianza a un percentil de (1 – ) en las siguientes figuras No. 2 (a, b, c, d y e).

Figura No. 2 Mínimo Intervalo Lmin para A1 y A2


Figura 2a para  = 120
En la figura 2a con  = 120, la proporción de las áreas corres-
ponden aproximadamente al 40%:60% (39.9452%:60.0548%)
de A1:A2. Mientras mayor sean los grados de libertad , la
proporción será más cercana al 50%:50% de A1:A2.
No obstante, lo anterior, los grados de libertad en la figura 2a
empiezan a ser altos y todavía la proporción de áreas está muy
alejada al 50%:50% de A1:A2.

En la figura 2b con  = 60, la proporción de las áreas correspon-


den aproximadamente a 36%:64% (35.79%:64.21%) de A1:A2.
Mientras menor sean los grados de libertad, el área A1 tiende a
tomar el valor de cero como puede ser observado en las siguien-
tes tres figuras 2c, 2d y 2e para grados de libertad 30, 10 y 4.
Figura 2b para  = 60
Para los 30 grados de libertad en la figura 2c, la proporción es
30%:70% (29.95%:70.05%) de A1:A2. Para los 10 grados de
libertad en la figura 2d, proporción es 16%:84% (15.86%:
84.14%) de A1:A2. Para los 4 grados de libertad en la figura 2e,
la proporción es 2%:98% (1.74%:98.26%) de A1:A2.

La simplificación utilizada en las lecturas de tablas genera un


error fuerte en la decisión principalmente en el lado derecho del
intervalo de confianza.

LOJB Página 18 de 20
Figura 2c para  = 30 Figura 2d para  = 10

Figura 2e para  = 4

Fuente: Elaboración propia archivo Excel AreasChiCuad.xlsx

Como resumen para el nivel de significación del 5%, se presenta la siguiente figura No. 3a que
presenta las proporciones del área izquierda A1 y el área derecha A2 a diversos grados de libertad.

Figura No 3a Proporciones de las áreas A1 y A2 para diferentes grados de libertad al 5%

Como puede ser observado en la figura 3a, incluso a


1000 grados de libertad la proporción de áreas son
46.5%:53.5% de A1:A2.

Consecuencia de lo anterior, es conveniente que modi-


fiquemos los criterios en la prueba de hipótesis de
igualdad de varianzas.

Caso 6a
( )
𝐻 :𝜎 = 𝜎 𝜒 = =
𝐻 :𝜎 ≠ 𝜎 𝜈 =𝑛−1
Con el siguiente criterio para el rechazo.
𝜒 < 𝜒( ), ó cumplir 𝜒 > 𝜒 , .

LOJB Página 19 de 20
Una aproximación razonable para el valor de f2 es la siguiente ecuación, donde X1 es el nivel de
significación (0.005, 0.01, 0.05 y 0.10) y X2 es el logaritmo natural de los grados de libertad. El
rango recomendable de utilización de esta ecuación es de 5 a 1000 grados de libertad.

𝑓 = 𝑓(𝑋 , 𝑋 ) = 1.2664049 − 1.425559𝑋 − 0.191931𝑋 + .0928193𝑋 𝑋 + 4.9360452𝑋 + 0.012848𝑋

Donde f1 es: 𝑓 = 1 − 𝑓 . La ecuación anterior fue desarrollada mediante la regresión siguiente:

Response f2
Summary of Fit Analysis of Variance
RSquare 0.991308 Source DF Sum of Squares Mean Square F Ratio
RSquare Adj 0.99064 Model 5 1.9913076 0.398262 1482.689
RCuadrada Press 0.989363 Error 65 0.0174595 0.000269 Prob > F
Root Mean Square Error 0.016389 C. Total 70 2.0087671 <.0001
Mean of Response 0.764405
Observations (or Sum Wgts) 71

Parameter Estimates Effect Tests


Term Estimate Std Error t Ratio Prob>|t| Source DF Sum of Squares F Ratio Prob > F
Intercept 1.2664049 0.01172 108.06 <.0001 X1 1 0.00887159 33.0281 <.0001
X1 -1.425559 0.248053 -5.75 <.0001 X1*X1 1 0.00148943 5.5450 0.0216
X1*X1 4.9360452 2.096177 2.35 0.0216 X2 1 0.22627445 842.3977 <.0001
X2 -0.191931 0.006613 -29.02 <.0001 X2*X2 1 0.06562111 244.3010 <.0001
X2*X2 0.012848 0.000822 15.63 <.0001 X1*X2 1 0.00269849 10.0462 0.0023
X1*X2 0.0928193 0.029284 3.17 0.0023

Ya que siempre es preferible obtener menor varianza, se recomienda evitar prueba de igualdad de
varianza, usar preferentemente el caso No. 4 (𝐻 : 𝜎 ≤ 𝜎 ).

LOJB Página 20 de 20

También podría gustarte