Está en la página 1de 38

AÑO DE LA LUCHA CONTRA LA CORRUPCIÓN E IMPUNIDAD

UNIVERSIDAD NACIONAL DE CAJAMARCA


FACULTAD DE INGENIERÍA
ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA GEOLÓGICA

ESTADÍSTICA DESCRIPTIVA Y PRUEBAS DE HIPOTESIS ESTADÍSTICAS

PRESENTADO POR:

- CARRANZA LEYVA, Emerson.

- GALLARDO SAENZ, David.

- MANTILLA BRIONES, Hernan.

- MEJIA MEJIA, Karla.

-MEJIA MEJIA, Elmer.

ASIGNATURA:
GEOESTADÍSTICA GENERAL

DOCENTE:
ING. HUQUIRUNA CHAVEZ, Wilder.

Cajamarca, febrero del 2020.


UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

ESTADÍSTICA DESCRIPTIVA

Si se mide la corriente que circula por un alambre de cobre delgado, lo que se está
haciendo es un experimento. Sin embargo, al repetir la medición durante varios días,
los resultados que se obtienen son un poco diferentes debido a pequeñas variaciones
en las variables que no están controladas en el experimento, como son los cambios de
temperatura ambiente, ligeras variaciones en el instrumento de medición y pequeñas
impurezas en la composición química del alambre en distintas partes, además de las
variaciones de la fuente de corriente. En consecuencia, se dice que este experimento,
así como muchos otros, tiene un componente aleatorio. En algunos casos, las
variaciones aleatorias observadas son tan pequeñas en relación con las metas del
experimento, que pueden ignorarse. Sin embargo, la variación casi siempre está
presente y su magnitud puede llegar a ser tan importante a tal grado, que las
conclusiones del experimento no sean muy evidentes.
Otro ejemplo de experimento es la selección de una pieza de la producción de un día y
la medición con bastante exactitud de la longitud de está. En la práctica pueden
presentarse pequeñas variaciones de las longitudes de las medidas, por muchas
causas, tales como vibraciones, fluctuaciones de temperatura, diferencias entre
quienes toman las mediciones, calibraciones, desgastes en la herramienta de corte,
desgaste en los cojinetes y cambios en la materia prima. Incluso el procedimiento de
medición puede producir variaciones en los resultados finales.
En estos tipos de experimentos, las mediciones de interés, (la corriente en el alambre
de cobre, la longitud de una pieza maquinada), pueden representarse con una variable
aleatoria. Es razonable modelar el rango de los valores posibles de la variable aleatoria
con un intervalo (finito o infinito) de números reales. Por ejemplo, para la longitud de
una parte maquinada, este modelo permite que las mediciones del experimento
produzcan cualquier valor dentro de un intervalo de números reales. Este intervalo
puede concebirse como un continuo de valores, en consecuencia, se define que “si el

2
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

rango de una variable aleatoria X contiene un intervalo (ya


sea infinito o finito) de números reales, entonces X es una variable aleatoria continua.

Variable aleatoria
Si arrojamos dos dados, sabemos que la suma X de los puntos que caen hacia arriba
debe ser un número entero entre 2 y 12, pero no podemos predecir que valor de X
aparecerá en el siguiente ensayo y podemos decir que X depende del azar. El tiempo
de vida de un foco que se extrae aleatoriamente de un lote de
focos depende también del azar.
Si las observaciones no se dan en términos de números, podemos asignarles números
y reducir las observaciones cualitativas al caso cuantitativo. Por ejemplo, si se lanza
una moneda 3 veces, el número de “caras” es una variable aleatoria X que toma los
valores 0, 1, 2 ó 3 (que representan en número de veces que se obtiene “caras” en los
3 lanzamientos de la moneda). Así tenemos que la función que asigna números o
valores a cada uno de los elementos del espacio muestra con una probabilidad
definida, se denomina variable aleatoria.
El espacio de muestra es el dominio de la función y el conjunto de valores que la
variable puede tomar es el rango de la función, que es un subconjunto de números
reales. Si el rango de X es el conjunto de números enteros Z o un subconjunto de Z, la
variable aleatoria se llama variable aleatoria discreta, y si el rango es el conjunto de
números reales, R, o un subconjunto de R, la variable aleatoria se llama variable
aleatoria continua. Son ejemplos de variables aleatorias continuas: la estatura, el
peso, la edad, el volumen, el pH, etc. Algunos ejemplos de variables discretas son: el
número de alumnos en una clase, el número de accidentes de automóvil, número de
piezas defectuosas por lote, etc.
La posibilidad de ocurrencia de un valor para la variable aleatoria se determina en
términos de su probabilidad. Supóngase un suceso E, que de un total de n casos
posibles, todos igualmente factibles, puede presentarse en h de los casos. Entonces la
probabilidad de aparición del suceso (llamada su
ocurrencia) viene dada por:
3
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Ejemplo: Sea E el suceso de que aparezcan los números 3 ó 4 en una sola tirada de un
dado. Hay seis casos que pueden presentarse, que son: 1, 2, 3, 4, 5 y 6. Los seis
casos son igualmente posibles. Puesto que E puede presentarse con dos de estos
casos, entonces: p = P{E} = 2/6 = 1/3
Debe tenerse muy en cuenta que la probabilidad de un suceso es un número
comprendido entre 0 y 1. Si el suceso es imposible (no puede ocurrir) su probabilidad
es cero. Si es un suceso cierto (tiene que ocurrir) su probabilidad es uno.
La naturaleza del estudio que se considera en el presente curso, condiciona a que solo
se aborde el caso de variables aleatorias continuas, dejando de lado el tratamiento de
variables aleatorias discretas.
Distribución de variables aleatorias continuas
Una función f(x) es una función de densidad de probabilidad, fdp, de la variable
aleatoria continua X, si para cualquier intervalo de números reales [a,b], se tiene:

Es decir, la probabilidad P (a ≤ X < b) es el área sombreada de la gráfica de f(x), Figura


3.1, para las líneas verticales x = a y x = b. Esta área da la probabilidad de que X se
encuentre entre a y b. En cierto sentido, f(x) es el límite de la frecuencia relativa
normalizada de un histograma al incrementarse el número de clases y cuando los
intervalos de clase tienden a cero.

4
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Figura 3.1: Gráfico de la densidad de probabilidad f(x). El área sombreada representa P


(a ≤ X < b). a que áreas tales como P (a ≤ X < b) para toda a < b, representan
probabilidades, se requiere que el área total debajo del gráfico de f(x) y x, sea igual a 1.
Más aún que las probabilidades son siempre positivas, se necesita que: f(x) ≥ 0; x ε R.
Es interesante observar que, si el espacio bajo la curva corresponde a un solo valor de
x, x = b entonces:

Esto concuerda con lo intuitivo, porque si el espacio R es un intervalo con infinita


cantidad de puntos, la probabilidad de un solo punto en particular es cero.
Ejemplo: Consideremos una rueda con una aguja giratoria balanceada:

La aguja al ser girada se detendrá en cualquier punto entre 0 y 1. Un modelo razonable


para la variable aleatoria X es f(x) = 1; x ε R = {x; 0 ≤ x < 1}, o de otra forma:
f(x) = 1; 0 ≤ x < 1
Tal fdp es constante en el espacio R. Para este modelo la probabilidad de:

5
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

es decir, la probabilidad de que al terminar de girar la aguja se


detenga entre el cuadrángulo ¼ y ½ es 0.25.
De otra forma, existe 25 % de probabilidades de que la aguja se detenga en el segundo
cuadrángulo de esa esfera.
Hay ciertas convenciones que se usan en el contexto de las variables aleatorias
continuas. Ya que en un caso continuo P(X=x) = 0, para todo x ε R, se tiene que:
P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b)

Esto es, se puede incluir o excluir los signos de igualdad en estas expresiones sin
cambiar la probabilidad.
La distribución normal
La distribución normal es la más importante distribución en el estudio de la estadística,
debido a que son muchos los fenómenos que son normalmente distribuidos. Esta
distribución fue desarrollada el siglo pasado por el matemático alemán Karl F. Gauss,
de modo que la distribución normal se conoce también como distribución Gaussiana.
Si X tiene una distribución normal, con promedio μ y varianza σ2, su fdp es:

Se debe distinguir al promedio de muestra simbolizado por x del promedio de población


simbolizado por μ, y de la varianza de muestra, s2 con la varianza de población σ2.

La fdp de la distribución normal se abrevia diciendo que X es N(μ, σ2 ); es decir, X está


normalmente distribuida con promedio μ, y varianza σ2. El gráfico de f(x) es la bien
conocida curva de campana o curva de Gauss mostrada en la Figura 3.2. El gráfico de
N(μ, σ2 ) es simétrico con respecto a x = μ y alcanza su máximo valor en este punto.

6
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Figura 3.2: Función de densidad de probabilidad de la distribución N(μ, σ2 ).


En general, se dice que X es N(μ, σ2 ) y se quiere determinar:

Si en la ecuación (2) hacemos que z = (x-μ)/σ tal que x = μ +σ z y dx/dz = σ , (dx =σ dz)
se tiene que:

Se puede observar que la integral de la ecuación (3) no es fácil de determinar por lo


que se recurre al uso de métodos numéricos. En Tablas aparecen tabulados los valores
de esta integral para una distribución N(0,1), (Función Estándar de Distribución Normal)
representada por:

Una variable aleatoria normal con μ = 0 y σ2 = 1 recibe el nombre de variable aleatoria


normal estándar y se denota como Z.
Las distribuciones normales sólo varían con respecto a la media y/o la desviación
estándar. La media determina la posición de una curva sobre el eje horizontal. La
desviación estándar determina el grado de amplitud o dispersión entre los elementos.
La Figura 3.3 (a) muestra dos distribuciones normales con idénticas desviaciones
estándar, pero con medias distintas. La Figura 3.3 (b) muestra dos distribuciones
normales con idénticas medias y diferentes desviaciones estándar.

7
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Hay un número infinito de funciones de densidad normal, una para cada combinación
de μ y σ. La media μ mide la ubicación de la distribución y la desviación estándar σ
mide la dispersión.
No es posible obtener una expresión de forma cerrada par la integral de la función de
densidad normal. Sin embargo, se puede calcular el área debajo de la curva normal
utilizando procedimientos de aproximación.
Se dice entonces que:
Si X es una variable aleatoria normal con media μ y varianza σ2, entonces:

8
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

es una variable aleatoria normal con media cero y varianza 1. La variable aleatoria Z se
denomina variable normal estándar.
Las áreas de la variable normal estándar se dan en la Tabla A de los apéndices. Son
las áreas bajo la curva normal entre z = -∞ y un valor cualquiera de z, valores que
definen la probabilidad de algún evento.
Por ejemplo, la probabilidad φ(1.5) = 0.932 corresponde al área sombreada de la
Figura 3.4

Con esta notación se puede escribir una probabilidad determinada, como por ejemplo:
P(-1 < Z < 1.5) = φ(1.5) - φ(-1.0)
o sea, se determina el área hasta 1.5 en la fdp y se resta el área de la curva de -∞ a -1.
Debido a la simetría de f(x) alrededor de z, es correcto que φ(-1.0) = 1 - φ(1.0), o en
términos más generales:
φ(-z) = 1- φ(z)
Así, se puede determinar:
P(-1 < Z < 1.5) = φ(1.5) - [1 - φ(1.0)]
= 0.9332 - (1 - 0.8413) = 0.7745
Lo anterior corresponde a la distribución estándar N(0,1) . Supóngase ahora de que X
es N(μ = 75, σ2 =100) y queremos determinar P(70 < X <90). En estos casos, la Tabla
respectiva puede ser utilizada según:

9
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Esto es, se puede estandarizar la distribución en referencia para una distribución


N(0,1).
Ejemplo: si X N(75, 100), entonces:

Ejemplo: El peso promedio de mineral en un camión es de 25 toneladas, según se ha


determinado de los pesos netos de mineral en 100 camiones muestreados. La
desviación estándar es 5 ton. Suponiendo que la variable peso de camión esta
distribuida normalmente, a) ¿Cuántos camiones contienen entre 20 y 30 toneladas de
mineral, b) ¿Cuántos camiones contienen más de 40 toneladas?
Se considera que μ = 25 ton y σ = 5 ton.; luego:

Entonces ~ 68 camiones contendrán entre 20 y 30 toneladas de mineral.

10
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Luego, 0.0013 * 100 = 0,13 ~ 0 camiones contienen más de 40 ton.


La Figura 3.5 presenta un resumen de varios resultados útiles relacionados con la
distribución normal. Para cualquier variable aleatoria normal:
P(μ - σ < X < μ + σ) = 0.6827
P(μ -2σ < X < μ +2σ) = 0.9545
P(μ - 3σ < X < μ + 3σ) = 0.9973

Debido a que más del 0.9973 de la probabilidad de una distribución normal está
comprendida en el intervalo:
(μ - 3σ < X < μ + 3σ),
a menudo se hace referencia a la cantidad 6σ como el ancho de la distribución normal.
El área que se está más allá de 3σ de la media es muy pequeña
Un mejor entendimiento de la distribución normal y de sus parámetros μ y σ se logra
con lo siguiente evaluación de probabilidades. Si X es N(μ, σ2 ), para un valor k > 0
tenemos que:

11
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Para valores selectos de k, se obtiene las siguientes


probabilidades:

Distribución de muestra.
Se ha estimado parámetros como el promedio μ y la desviación estándar, σ de una
distribución normal, basados en observaciones x1, x2,...,xn que fueron obtenidos por
muestreo de una población de interés. Sin embargo, hay que reconocer que
generalmente estos estimados no son iguales a los verdaderos valores de la población
considerada. Es decir: x≠ μ; s ≠ σ. De esto resulta, por ejemplo, que, si se repite varias
veces el muestreo de una misma población y de cada muestreo de obtiene x y s, cada
uno de los respectivos valores diferirán entre sí. Si realizamos N muestreos, se
obtendrá x1, x2……. Xn promedios. Estos estimadores (x, s2 , s,) por lo tanto tendrán
una distribución, de lo que resulta que es necesario evaluar la confiabilidad de los
estimadores. Se estará hablando por ejemplo de la varianza de promedios. Si esta
varianza es muy grande, no se tendrá mucha confianza en la evaluación hecha
mediante varios muestreos. Todo esto da sentido a la expresión distribución de
muestra o distribución de estimadores de muestreos.
El muestreo introduce variabilidad en los estimadores. Esta fuente de variabilidad se
denomina variabilidad de muestreo o variabilidad debido al muestreo.

Distribución del promedio de muestra, x


Considerando el promedio de una muestra de tamaño n:

tomada de una población de media μ y varianza σ2, entonces X es un valor de una


variable aleatoria cuya distribución tiene media μ. Para muestras de población infinitas,
la varianza de esta distribución es σ2/n, o lo que es lo mismo:

12
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

esto es, el promedio de muestra x es el mismo que el de la distribución. Sin embargo,


la varianza es la misma de la distribución, pero dividida por el tamaño de la muestra. El
promedio de muestra x es el más común estimador del promedio de población μ,
ambos valores, (x y μ) diferirán entre si cada vez que se evalúe un promedio de
muestra.
El hecho de que VAR(x) = σ2/n muestra que la variabilidad del estimador x alrededor
del promedio μ tiende a cero según que el número de observaciones en la muestra
crezcan. Hacia el límite, cuanto más grande sea n, el promedio de la población μ
quedará determinado con mayor precisión.
Ahora bien, si X es un valor de una variable aleatoria de tamaño n, cuya distribución
tiene media μ y varianza σ2 entonces:

es el valor de una variable aleatoria cuya función de distribución se aproxima a la de la


distribución normal centrada y estandarizada (tipificada); es decir, X será N(0, 1). Esto
implica que la combinación lineal de variables aleatorias es también normalmente
distribuida. Por lo tanto, si se toma una muestra de una distribución normal con
promedio μ y varianza σ2 entonces la distribución de X es:

y la distribución de Z es N(0, 1)

1.4.2. INTERVALOS DE CONFIANZA PARA PROMEDIOS

13
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

El intervalo de confianza es el conjunto de valores obtenido a


partir de los datos muestrales en el que hay una determinada probabilidad de que se
encuentre el parámetro poblacional. Esta probabilidad se le conoce como el nivel de
confianza.

Por ejemplo, en una encuesta se encontró que en una determinada región el ingreso
mensual promedio de los trabajadores de la construcción es de 2.5 SMLM. Un intervalo
podrá ser que el salario promedio global este entre 2 y 3 SMLM.

La información que se tiene acerca de la forma de la distribución de muestral de la media


muestral, es decir de la distribución muestral de X, permite localizar un intervalo que
tenga una determinada probabilidad de contener a la media poblacional. (Vargas barrera,
2008)

Si el tamaño de la muestra es razonablemente grande, el teorema del límite central


permite establecer lo siguiente:

 El 95% de las medias muestrales obtenidas de una población se encuentra a no


más de 1.96 desviaciones estándar de la media poblacional.
 El 99% de las medias poblacionales sse encuentran a no más de 2.58
desviaciones estándar de la media poblacional.
Cuando el tamaño de la muestra es grande o la variable tiene distribución normal,
el intervalo de confianza está dado por:

𝜎 𝜎
𝑋̅ − 𝑍𝛼 ∗ ≤ 𝜇 ≥ 𝑋̅ + 𝑍𝛼 ∗
2 √𝑛 2 √𝑛

14
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

𝜎 𝜎
P⟮𝑋̅ − 𝑍𝛼 ∗ ≤ 𝜇 ≥ 𝑋̅ + 𝑍𝛼 ∗ ⟯= 1-
2 √𝑛 2 √𝑛

Ejemplo. En una encuesta aplicada a 1600 colombianos se encontró que en promedio


ven 14.6 horas de Fig. 1: Intervalos de confianza para promedios
televisión a la
semana con una desviación estándar
de 5 horas. Realice una estimación de la variable para un nivel de confianza de 80%.

N=1600; 𝑋̅ = 14.6 ℎ𝑜𝑟𝑎𝑠; σ=5 horas; 1- 𝛼 = 0.80; 𝑍0.80 = 1.28

5 5
P⟮14.6 − 1.28 ∗ ≤ 𝜇 ≥ 14.6 + 1.28 ∗ ⟯= 0.80
√1600 √1600

P⟮14.4 ≤ 𝜇 ≥ 14.76⟯= 0.80

Los colombianos ven televisión en promedio entre 14.4 y 14.76 horas con un nivel de
confianza del 80%.

1.4.3. INTERVALOS DE CONFIANZA PARA 𝜇1 - 𝜇2

Sean los promedios de muestra 𝑋̅ y𝑌̅ estimadores de μ1 y μ2 con varianzas 𝜎1 2 y


𝜎2 2 respectivamente. Si las muestras son tomadas de distribuciones normales, las
distribuciones respectivas para esos promedios serán:

𝜎1 2 𝜎2 2
N (𝜇1 , ); N (𝜇2 , )
𝑛1 𝑛2

15
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

El estimador apropiado para μ1 - μ2 es la diferencia de los


promedios de muestra 𝑋̅ y 𝑌̅ . Se debe asumir que se trata de dos muestras aleatorias
seleccionadas independientemente. Por consiguiente:

𝜎1 2 𝜎2 2
Var (𝑋̅- ̅𝑌) = Var (𝑋̅) + Var (𝑌̅) = +
𝑛1 𝑛2

Por lo que la distribución de muestra de 𝑋̅ - 𝑌̅ es:

𝜎1 2 𝜎2 2
N (𝜇1 - 𝜇2 , + )
𝑛1 𝑛2

Entonces:

𝜎 2 𝜎2 2 𝜎12 𝜎2 2
(𝑋̅- ̅𝑌-𝑍𝛼 √ 1 + , 𝑋̅- ̅𝑌+𝑍𝛼 √ + )
2 𝑛1 𝑛2 2 𝑛1 𝑛2

1.5. INFERENCIAS CON PEQUEÑAS MUESTRAS Y VARIANZAS DESCONOCIDAS

Si n es grande, se puede usar la teoría cuando no se conoce σ y puede ser reemplazada


por s. Para muestras de tamaño n < 30, llamadas muestras pequeñas, esta aproximación
no es muy buena y va siendo tanto peor a medida que n disminuya; por lo tanto, no se
puede tener mucha confianza en “s” como aproximación de σ.

Cuando ocurre así, se puede probar el siguiente teorema:

"Si 𝑋̅ es la media de una muestra aleatoria de tamaño n tomada de una población normal
con la media μ y varianza σ2, entonces:

𝑋̅−𝜇
t= 𝑠
√𝑛

Es el valor de una variable aleatoria que tiene una distribución t-Student de parámetro r
= n - 1 grados de libertad.

En este caso no se requiere conocer σ y se debe trabajar con una población normal.

16
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Propiedades de la distribución t

 Cada curva t tiene forma de campana con centro en 0.


 Es simétricas con respecto a la media
 Cada curva t está más dispersa que la curva normal estándar.
 la probabilidad de las colas es mayor que en la distribución normal.
 A medida que r aumenta, la dispersión de la curva t correspondiente dieminuye.
 A medida que r→ ∝, la secuencia de curvas t se aproxima a la curva normal
estándar.

fig. 2: Funciones de densidad de probabilidad para varias distribuciones t.

𝑐
f(t)= 𝑡2
𝑟+1 ; −∞ < 𝑡 < +∞
(1+ 𝑟 ) 2

Donde c es un valor tal que el área debajo de f(t) = 1. Se comprueba que E (t) = 0 y Var
(t) = r/r-2 para r>2. La varianza de t es mayor de 1 pero se aproxima a ese valor cuando
n →∝. Esta densidad se parece mucho a la distribución N (0, 1), especialmente para
valores grandes de r.

17
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

P [T > t (α; r)] = α

Ya que la distribución de f (t) es simétrica alrededor de cero, se tiene:

P [T< -t (α; r)] = P [T > t(α; r)]

1.6. DISTRIBUCIÓN 𝑋 2 , (CHI CUADRADO)

Al igual que el promedio es una variable aleatoria, la varianza es también una variable
aleatoria con una distribución muestral. La distribución muestral teórica de s2 se
encuentra ligada a una distribución gamma de parámetros α = r/2 y β = 2 llamada
distribución Chi Cuadrado (𝑋 2 ). Como 𝑆 2 no puede ser negativa, es de esperar una
distribución muestral que no sea normal. Se tiene:

"Si 𝑠 2 es la varianza de una muestra aleatoria de tamaño n tomada de una población


normal, que tiene varianza σ2, entonces:

(𝑛 − 1)𝑠 2
𝑋2 =
𝜎2

Es el valor de una variable aleatoria que tiene distribución 𝑋 2 con parámetro r = n - 1


llamado grados de libertad"

En la Tabla respectiva se anotan valores seleccionados de 𝑋 2 (α; r), donde el área bajo
la curva de la distribución χ2 (tomada a la derecha) es igual a α.

1.7. INTERVALOS DE CONFIANZA PARA LA VARIANZA

Se trata de estimar dentro de unos determinados límites de confianza la varianza y


desviación estándar de la población, σ, a partir de la desviación estándar muestral, s.

Si 𝑆 2 es la varianza muestral de una muestra aleatoria de n observaciones tomadas de


una distribución normal con varianza desconocida σ 2 , entonces un intervalo de
confianza 100(1-α) por ciento para σ 2 es.

18
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

2 2
Por ejemplo,si 𝑋0.025 𝑋0.975 son los valores de 𝑋 2 (llamados valores críticos), para que el
2.5% del área se encuentre en cada cola de la distribución, entonces el intervalo de
confianza al 95% para la varianza es:

y para la desviación estándar:

19
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

PRUEBAS DE HIPOTESIS ESTADISTICA

La recolección y análisis de datos son componentes muy importantes de los métodos


científicos de investigación. Los datos se utilizan para confirmar o rechazar teorías e
hipótesis, y estas deben ser confirmadas con datos provenientes de experimentos
cuidadosamente planificados. Si los datos contradicen las teorías formuladas, se
deberá buscar adecuadas explicaciones o nuevas teorías. Estas ideas introductoras
ilustran el hecho de que los datos obtenidos a partir de muestras se utilizan para decidir
entre hipótesis elaboradas.
La inferencia estadística estudia los métodos que señalan como emplear datos
obtenidos de muestras aleatorias para inducir, por generalización, características a las
poblaciones de las que se ha obtenido las muestras. Más recientemente, los métodos
de inferencia estadística se han unificado bajo los conceptos generales de la teoría de
la decisión, es decir, bajo los conceptos generales de la manera de tomar
decisiones en condiciones de incertidumbre.
Las pruebas de hipótesis estadística se encargan de analizar procedimientos para
confirmar o rechazar hipótesis acerca de la distribución de variables aleatorias. Las
hipótesis están confinadas a términos de parámetros de población; esto es, hecha una
determinada afirmación sobre una población, deseamos saber
si los resultados de una muestra contradicen o no tal afirmación. Por ejemplo, dos
hipótesis pueden especificar que el promedio de la tensión de ruptura de cierta aleación
es mayor (no es mayor) que 2000 lb.; o que la variabilidad de un proceso A es mayor
(no es mayor) que aquella de un proceso B; etc.
Así como ocurrió con la construcción de los estimadores por intervalos de confianza,
las pruebas de hipótesis también se apoyan en la distribución de probabilidad de los
estimadores. De esta manera, las distribuciones de probabilidad de la media muestral y
la varianza muestral, serán utilizadas para las respectivas pruebas sobre la media y la
varianza poblacional.

20
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Ejemplo ilustrativo.
Supóngase que se quiere determinar si ciertos cambios en un proceso productivo
reducen el tiempo que le toma a un obrero completar una tarea de ensamblaje de un
producto. Supóngase que en condiciones normales, en promedio, un trabajador emplea
30 minutos en completar la tarea de ensamblaje. También se sabe que ese tiempo
promedio presenta variación; esto es, el tiempo de ensamblaje es una variable
aleatoria que se puede representar por X. Mas aún, existe suficiente información para
asegurar que X esta normalmente distribuida y tiene promedio m = 30 y una desviación
estándar s = 1. Esto implica que aproximadamente 95% de los tiempos de ensamblaje
se encuentran entre 28 y 32 minutos.
En este ejemplo se va a evaluar una hipótesis relacionada al parámetro m, con el
supuesto de que s = 1 aún después de los cambios efectuados. Luego de concretados
los cambios en el proceso de ensamblaje, se plantean dos hipótesis:
- La hipótesis del no cambio (hipótesis nula), que establece que m sigue siendo 30
minutos; y
- La hipótesis alternativa que sugiere que m < 30 minutos:
Para determinar la validez de una de estas hipótesis se procede a la recolección de
información.
Primeramente, se elige aleatoriamente a un solo trabajador para evaluar el efecto de
los cambios realizados. Se observa que este trabajador emplea 29 minutos en la tarea
normal de ensamblaje. Con este dato, y teniendo en consideración que X proviene de
N(30, 1) se evalúa:

es decir, hay aproximadamente 16 % de probabilidades de que el tiempo de


ensamblaje sea 29 minutos, siendo que X proviene de N(30, 1). Esto indica de que un
tiempo de 29 min. no es un evento muy raro en esa distribución. Continuando la toma
de datos se evalúa n = 5 trabajadores, para los cuales X = 29min.
Luego se toma n = 25 trabajadores que presentan X = 29min. Reiterando que X
proviene de N(30, 1), la probabilidad de que X = 29min. para 25 trabajadores es:

21
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Esto hace que para una N(30, 1), con n = 25, X=29min. es un evento extremadamente
improbable.
Ciertamente, esto quita consistencia a la hipótesis de que m sigue siendo 30 minutos.
Por ello se puede afirmar que, efectivamente, el tiempo de ensamblaje de cada
trabajador se ha reducido.
En términos técnicos, se dice que: los cambios efectuados en el proceso productivo
originan una diferencia estadísticamente significativa en el tiempo de ensamblaje; o
bien, que la diferencia en el tiempo, 30 - 29 = 1 es estadísticamente significativa.
Es necesario aclarar que una diferencia estadísticamente significativa no siempre es de
utilidad práctica; ya que por ejemplo, la reducción de un minuto en el promedio m no
podría representar ahorros importantes en el proceso productivo. La decisión final de
adoptar los cambios concierne a una evaluación de estructura de costos, que estas
técnicas estadísticas no pueden resolver.
Definición de hipótesis
Para llegar a tomar decisiones, conviene hacer determinados supuestos o conjeturas
acerca de las poblaciones que se estudian. Tales supuestos, que pueden ser ciertos ó
no, se denominan hipótesis estadísticas. Por ejemplo, si se quiere decidir si un
procedimiento es mejor que otro, se formulan las hipótesis:
- No hay diferencia estadística entre los dos procesos; y
- Si existe diferencia estadística entre los dos procesos.
La primera se define como la hipótesis del "no cambio" o “hipótesis nula” y se simboliza
por Ho. La segunda se denomina “hipótesis alternativa” y se simboliza por H1.
Por ejemplo, una empresa produce circuitos impresos con probabilidad histórica de
producto fallado igual al 3% (P = 0.03). Un ingeniero de producción sugiere cambios en
el proceso y asegura que tales cambios causarán una reducción de la probabilidad de
falla; es decir, asegura que P < 0.03. Por lo tanto, se deberá evaluar:
Ho : P = 0.03 (Hipótesis Nula)

22
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

H1 : P < 0.03 (Hipótesis Alternativa)

Nivel de significación
Se acostumbra a fijar niveles de significación de 0.1, 0.05 y 0.01, aunque se puede fijar
otros valores. Si por ejemplo, se fija un nivel de significación del 0.05 (5%) al diseño de
un ensayo de hipótesis, entonces hay aproximadamente 5 ocasiones en 100 en que se
rechazaría una hipótesis cuando debería ser aceptada. En otras palabras, se estaría
95% seguro de que se toma la decisión adecuada.

Hipótesis referente a la media


Se trata de contrastar la hipótesis de la media, X, de una población igual a un valor
determinando frente a otra alternativa conveniente. Es decir, hay que contrastar:

Para efectuar una prueba con un nivel de significación a se escoge una región crítica
(es decir una región de rechazo de Ho) para X < c, tal que:

23
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

se denomina el estadístico estandarizado o tipificado. Si


este estadístico es un valor menor de - z(a), se rechaza Ho y se acepta H1. Por el
contrario, si Z es mayor que -z(a) , se dice que no hay suficiente evidencia para
rechazar H1, por lo que se acepta Ho.
En general, las regiones críticas para contrastar Ho : u = uo se pueden expresar como
se indica en la Tabla 4.1:
Tabla 4.1: Regiones críticas para contrastar Ho : u = uo

Hipótesis referente a la media: Cola inferior


Para entender la correcta orientación de la región crítica, la Figura 4.1 es muy útil para
el caso de:
Ho : u = uo y;
H1 : u < uo.

En la Figura 4.1,”c” representa el valor crítico. La región a la derecha de este punto es


la región de aceptación de Ho y la región a la izquierda de “c” es la de aceptación de

24
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

H1 . El punto c es tal que la probabilidad de rechazar Ho es


α. El gráfico muestra que el valor crítico “c” debe ser menor que uo y es determinado
por:

El valor de “α” depende de cada aplicación. Un valor muy frecuentemente utilizado es α


= 0.05. si altos costos están asociados a la evaluación, conviene utilizar valores más
pequeños de α. Sin embargo, para valores pequeños de a implica un valor alto de z(a)
y la prueba se torna muy conservadora, tal que se rechaza Ho solo en casos muy
extremos.
Otra forma de conducir las pruebas de hipótesis es utilizando el concepto de valor de
probabilidad o el valor 'p'. Por ejemplo, en el caso de disminución de tiempos de
ensamblaje de un producto de n = 34, si X=29.68 para N(30, 1), se puede obtener un
valor p, tal que:

En este caso se rechaza Ho si el valor de p es menor que α = 0.05 (es decir para un
nivel de significación de 0.05). Esto se ilustra en la Figura 4.2.

25
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Hipótesis referente a la media: Cola superior


Si ahora se trata de decidir si un procedimiento determinado ha producido un
incremento en se está en la circunstancia de probar Ho : u = uo versus H1 : u > u o .
En este caso, se rechaza Ho en favor de H1
cuando X > c, como se ilustra en la Figura 4.3.

En la Figura 4.3 se quiere probar a un nivel de significación α, se requiere que una


probabilidad de falso rechazo de Ho sea a, es decir:

26
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Las pruebas Ho : o versus H1 : o y Ho : o versus H1 : o son


llamadas pruebas a un solo nivel o de una cola. Hay ocasiones en que pruebas a dos
lados son apropiadas, de modo que se
contrasta:
Ho : o versus H1 : o.

27
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

28
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Hipótesis referente a medias de muestras pequeñas

Los anteriores conceptos asumen que se tiene una distribución N (0,1) con 𝜎 2 conocida.

Si ahora la varianza 𝜎 2 es estimada por la varianza de muestra 𝜎 2 , la distribución de


muestra:

𝑥̅ − 𝜇
𝑡= 𝑠
√𝑛

Es una distribución t con n-1 = r grados de libertad y los valores críticos 𝑧(𝛼) deben ser
reemplazados por t(a; n-1). Si acaso n es grande (por lo menos 30) se puede utilizar la
Tabla normal.

Las regiones críticas resultantes se muestran en la Tabla de t-Student, en donde por


ejemplo 𝑡 (𝛼 ; 𝑛 − 1) es el área a la derecha bajo la curva de distribución 𝑡 con 𝑛 − 1
grados de libertad y es igual a 𝛼, Figura 4.5

Figura 4.5: Ilustración gráfica de la prueba 𝐻𝑜 ∶ 𝜇 = 𝜇0 versus 𝐻1 ∶ 𝜇 > 𝜇0 para


muestras pequeñas.

29
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Tabla 4.2: Regiones críticas para contrastar 𝐻𝑜 ∶ 𝜇 = 𝜇0 .

Hipótesis referente a dos medias

Una de las pruebas más importante que se hace en estadística es aquellas para las que
se compara dos métodos diferentes. Por ejemplo, si se han considerado dos tipos de
acero para ser usado en ciertas vigas de estructura metálica, se tomarán muestras y
decidirá cuál es mejor al comparar sus resistencias medias.

Generalmente se compara las medias de dos distribuciones, de lo que resulta que se


establecen las hipótesis nula y alternativa:

𝐻𝑜 ∶ 𝜇 = 𝜇0 Versus 𝐻1 ∶ 𝜇 < 𝜇0 , ó 𝐻1 ∶ 𝜇 > 𝜇0 ó 𝐻1 ∶ 𝜇 ≠ 𝜇0 .

Comparación de dos muestras independientes grandes

Consideremos dos muestras aleatorias cada una con una distribución independiente y
con promedios 𝜇1 y 𝜇2 , varianzas 𝜎12 𝑦 𝜎22 respectivamente y de tamaño 𝑛 1 y 𝑛 2 ,
denotadas por: 𝑥1 , 𝑥2 , … , 𝑥𝑛1 y 𝑦1 , 𝑦2 , … , 𝑦𝑛2 y que son aproximadamente:

𝑁(𝜇1 , 𝜎12 /𝑛1 ) 𝑦 𝑁(𝜇2 , 𝜎22 /𝑛2 )

Se asume que 𝜎12 𝑦 𝜎22 son conocidas.

Bajo la hipótesis nula 𝐻𝑜 ∶ 𝜇 = 𝜇0 ó que 𝜇 − 𝜇0 = 0, la variable aleatoria

30
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

𝑥−𝑦
𝑍=
𝜎12 𝜎22

𝑛1 + 𝑛2

Es 𝑁(0,1). Se rechaza 𝐻0 y se acepta 𝐻1 cuando 𝑍 ≥ 𝑧(𝛼) a una prueba de nivel de


significación 𝛼.

Comparación con pequeñas muestras

Si las varianzas 𝜎12 𝑦 𝜎22 son desconocidas, estas pueden ser reemplazadas por las
varianzas de muestra 𝑆12 𝑦 𝑆22 . En este caso se toma en consideración los grados de
libertad 𝑟1 , = 𝑛1 − 1 𝑦 𝑟2 , = 𝑛2 − 1, y bajo la hipótesis nula 𝐻𝑜 ∶ 𝜇 = 𝜇0 , la variable
aleatoria:

𝑥−𝑦
𝑇=
(𝑛 − 1)𝑆𝑥2 + (𝑛2 − 1)𝑆𝑦2 1 1
√ 1 (𝑛 + 𝑛 )
𝑛1 + 𝑛2 − 2 1 2

Tiene una distribución t-Student 𝑡( 𝛼; 𝑛1 + 𝑛2 − 2 ). Si se rechaza 𝐻𝑜 ∶ 𝜇 = 𝜇0 y se


acepta 𝐻1 ∶ 𝜇 < 𝜇0 , cuando 𝑇 ≥ +𝑡 ( 𝛼; 𝑛1 + 𝑛2 − 2)) se obtiene una prueba con nivel
de significación 𝛼. Similarmente, en una prueba 𝐻𝑜 ∶ 𝜇 = 𝜇0 versus 𝐻1 ∶ 𝜇 < 𝜇0 , se
acepta 𝐻1 cuando 𝑇 ≤ −𝑡 ( 𝛼; 𝑛1 + 𝑛2 − 2). En una prueba 𝐻𝑜 ∶ 𝜇 = 𝜇0 versus 𝐻1 ∶
𝜇 < 𝜇0 , se acepta 𝐻1 cuando |𝑇| ≥ 𝑡 ( 𝛼; 𝑛1 + 𝑛2 − 2).

Pruebas de comparación por pares

Hasta aquí se ha asumido que las observaciones provienen de dos grupos


independientes entre sí. En la mayoría de aplicaciones esto es válido, pero hay
circunstancias en las que se debe asumir dependencia entre las observaciones. Por
ejemplo, considérese una máquina que mide la dureza de un metal por la profundidad
de la marca hecha por la punta de la máquina en la probeta a evaluar. Esta máquina

31
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

dispone de dos puntas, diferentes la una a la otra, aun


cuando la variabilidad de las dos parece ser la misma.

Si se desea evaluar si existe diferencia en las medidas de dureza de ambas puntas, se


puede optar por ejemplo en tomar 20 probetas de metal y aleatoriamente escoger 10
probetas para cada una de las puntas.

Este sencillo y lógico procedimiento puede tener desventajas. Supóngase que las 20
probetas fueron obtenidas de distintas existencias del mismo material, que podrían tener
algunas diferencias físicas entre sí, (por ejemplo, diferente dureza entre los distintos
lotes). Esto contribuiría a incrementar el error experimental, variabilidad y haría más difícil
detectar las diferencias entre ambas puntas.

Para salvar esta posibilidad de obtener una conclusión errónea, se puede optar por otro
procedimiento. Si cada probeta es lo suficientemente grande, se puede utilizar cada una
de las probetas para medir la dureza con las dos puntas. El orden y ubicación de
medición se deberá ejecutar aleatoriamente. En este caso las mediciones están
mutuamente relacionadas y se dice que hay dependencia entre las observaciones.

En tales situaciones, se analiza las diferencias 𝑊𝑖 = 𝑋𝑖 − 𝑌𝑖 . Estas diferencias:

𝑊1 = 𝑋1 − 𝑌1 ; 𝑊2 = 𝑋2 − 𝑌2 ; … ; 𝑊𝑛 = 𝑋𝑛 − 𝑌𝑛 . . . son muestras aleatorias de tamaño


𝑛 provenientes de una distribución con promedio 𝜇1 − 𝜇0 y varianza 𝜎𝑤2 .

Las variables 𝑊1 , 𝑊2 , … , 𝑊𝑛 son independientes (provienen de diferentes objetos).


Asumiendo que W es normal, se puede utilizar la prueba estadística:

̅
𝑊
𝑡=
𝑆𝑤 /√𝑛

Donde 𝑆𝑤 es la desviación estándar de las diferencias, W. Una prueba de hipótesis por


ejemplo puede ser 𝐻𝑜 ∶ 𝜇 = 𝜇0 versus ̅ /(𝑆𝑤 /√𝑛) ≥
𝐻1 ∶ 𝜇 < 𝜇0 . Se acepta 𝑊
𝑡 ( 𝛼; 𝑛 − 1). Si n es suficientemente grande, se puede utilizar la distribución normal.

32
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Prueba para 𝝈𝟐 = 𝝈𝟐𝟎

Si se desea probar la hipótesis de que la varianza de una población normal 𝜎 2 es igual a


un valor específico, por ejemplo 𝜎02 . Sea 𝑥1 , 𝑥2 , … , 𝑥𝑛 una muestra aleatoria de n
observaciones tomadas de esta población. Para probar:

𝐻𝑜 ∶ 𝜎 2 = 𝜎02

𝐻𝑜 ∶ 𝜎 2 ≠ 𝜎02

Se utiliza el estadístico de prueba:

(𝑛 − 1)𝑆 2
𝑋02 =
𝜎02

Donde 𝑆 2 es la varianza muestral. Ahora si 𝐻𝑜 es verdadera, entonces el estadístico de


prueba 𝑋02 sigue una distribución chi cuadrada con 𝑛 − 1 grados de libertad. Por
consiguiente, se calcula el valor de la estadística de prueba 𝑋02 y la hipótesis 𝐻𝑜 ∶ 𝜎 2 =
𝜎02 debe rechazarse si:

𝑋02 > 𝑋𝛼2,𝑛−1 𝑜 𝑠𝑖 𝑋02 < 𝑋𝛼2,𝑛−1


2 2

Donde 𝑋𝛼2,𝑛−1 y 𝑋𝛼2,𝑛−1 son los puntos que corresponden a los porcentajes 100𝛼/2
2 2

inferior y superior a la distribución chi cuadrada con 𝑛 − 1 grados de libertad


respectivamente.

El mismo estadístico se utiliza para las hipótesis alternativas unilaterales. Para la


hipótesis unilateral:

𝐻𝑜 ∶ 𝜎 2 = 𝜎02

33
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

𝐻𝑜 ∶ 𝜎 2 ≠ 𝜎02

Se rechaza 𝐻𝑜 si 𝑋02 > 𝑋𝛼2,𝑛−1


2

Para la otra hipótesis unilateral:

𝐻𝑜 ∶ 𝜎 2 = 𝜎02

𝐻1 ∶ 𝜎 2 < 𝜎02

2
Se rechaza 𝐻𝑜 si 𝑋02 > 𝑋1−𝛼 ,𝑛−1
2

Prueba para 𝝈𝟐𝟏 = 𝝈𝟐𝟐

Supóngase que se tiene interés en dos poblaciones normales independientes, donde las
medias y varianzas de la población, 𝜇1 , 𝜎12 , 𝜇2 𝑦, 𝜎22 son desconocidos. Se desea probar
las hipótesis sobre la igualdad de las dos varianzas 𝐻𝑜 ∶ 𝜎12 = 𝜎22 por ejemplo. Si se
tienen dos muestras aleatorias de tamaño 𝑛1 tomada de la población 1, y otra de tamaño
𝑛2 proveniente de la población 2 y sean 𝑆12 𝑦 𝑆22 las respectivas varianzas muestrales.
Para probar las alternativas:

𝐻𝑜 ∶ 𝜎12 = 𝜎22

𝐻𝑜 ∶ 𝜎12 > 𝜎22

Se utiliza el estadístico:

𝑆12
𝐹=
𝑆22

Tiene una distribución 𝐹 con 𝑛 − 1 grados de libertad en el numerador y 𝑛2 − 1 grados


de libertad en el denominador

34
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

𝑆2
Se rechaza 𝐻𝑜 ∶ 𝜎12 = 𝜎22 y se acepta 𝐻𝑜 ∶ 𝜎12 > 𝜎22 si 𝑆𝑥2 ≥
𝑦

𝐹(𝛼, 𝑛1 − 1, 𝑛2 − 1)

35
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Comparación de muestras cuando 𝝈𝟐𝟏 ≠ 𝝈𝟐𝟐

Hasta ahora las inferencias referentes a la diferencia entre medias de dos poblaciones
se han presentado bajo el supuesto de que las varianzas poblacionales son conocidas o
desconocidas, pero iguales. Si las varianzas no son iguales, al usar los estimadores
insesgados 𝑆12 𝑦 𝑆22 en vez de 𝜕12 𝑦 𝜕22 la cantidad:

𝑋̅1 − 𝑋̅2
𝑡=
𝑆12 𝑆22

𝑛1 + 𝑛2

No sigue la distribución t-student con 𝑛1 + 𝑛2 – 2 grados de libertad. Pero si se estima


los grados de libertad por la fórmula:

Donde “r” corresponde a los grados de libertad. Entonces, la expresión

𝑋̅1 − 𝑋̅2
𝑡∗ =
𝑆2 𝑆2
√ 1+ 2
𝑛1 𝑛2

Se aproxima a la distribución t-student con r grados de libertad calculados en la anterior


ecuación. Si el valor de r no es un valor entero, se le aproxima al entero más cercano.
Con esto, las pruebas de hipótesis se ejecutan de igual manera a lo descrito para
muestras pequeñas de varianza desconocida.

Ejemplo:

36
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Para probar la efectividad de dos pegamentos se utilizan 41 moldes pegados con cada
uno de esos pegamentos. Se mide la fuerza para romper los moldes pegados con los
siguientes resultados:

Probar la hipótesis 𝐻𝑜: 𝜇1 = 𝜇2 con a = 0.05

37
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Bibliografía
Vargas barrera, R. (2008). Estadistica II. Bogotá: Escuela Superior De Administración
Pública Rafael vargas barrera.

38

También podría gustarte