Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PRESENTADO POR:
ASIGNATURA:
GEOESTADÍSTICA GENERAL
DOCENTE:
ING. CHUQUIRUNA CHÁVEZ, Wilder.
ÍNDICE
INTRODUCCIÓN............................................................................................................................................. 3
OBJETIVOS ..................................................................................................................................................... 4
MARCO TEÓRICO .......................................................................................................................................... 5
1. ESTADÍSTICA DESCRIPTIVA ................................................................................................................ 5
1.1 VARIABLE ALEATORIA...................................................................................................................... 6
1.2 DISTRIBUCIÓN DE VARIABLES ALEATORIAS CONTINUAS ................................................................ 7
1.3 LA DISTRIBUCIÓN NORMAL............................................................................................................. 9
DISTRIBUCIÓN DE MUESTRA............................................................................................................... 15
Distribución del promedio de muestra, x ........................................................................................... 15
Intervalos de confianza para promedios ............................................................................................ 16
Intervalos de confianza para 𝝁1 - 𝝁2 ................................................................................................ 18
Inferencias con pequeñas muestras y varianzas desconocidas .......................................................... 19
DISTRIBUCIÓN 𝑿𝟐, (CHI CUADRADO) ................................................................................................. 20
Intervalos de confianza para la varianza............................................................................................. 21
2. PRUEBAS DE HIPOTESIS ESTADISTICA ............................................................................................. 22
DEFINICIÓN DE HIPÓTESIS .................................................................................................................. 24
NIVEL DE SIGNIFICACIÓN .................................................................................................................... 25
HIPÓTESIS REFERENTE A LA MEDIA .................................................................................................... 25
HIPÓTESIS REFERENTE A LA MEDIA: COLA INFERIOR ......................................................................... 26
HIPÓTESIS REFERENTE A LA MEDIA: COLA SUPERIOR ........................................................................ 28
HIPOTESIS REFERENTE A LA MEDIA: DOS COLAS ................................................................................ 29
HIPÓTESIS REFERENTE A MEDIAS DE MUESTRAS PEQUEÑAS ............................................................ 29
HIPÓTESIS REFERENTE A DOS MEDIAS................................................................................................ 30
COMPARACIÓN DE DOS MUESTRAS INDEPENDIENTES GRANDES ..................................................... 31
COMPARACIÓN CON PEQUEÑAS MUESTRAS ..................................................................................... 31
PRUEBAS DE COMPARACIÓN POR PARES ........................................................................................... 32
PRUEBA PARA 𝝈𝟐 = 𝝈𝟎𝟐 ................................................................................................................... 33
PRUEBA PARA 𝝈𝟏𝟐 = 𝝈𝟐𝟐 ................................................................................................................. 34
COMPARACIÓN DE MUESTRAS CUANDO 𝝈𝟏𝟐 ≠ 𝝈𝟐𝟐 ....................................................................... 36
CONCLUSIONES ........................................................................................................................................... 38
BIBLIOGRAFÍA.............................................................................................................................................. 38
2
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
INTRODUCCIÓN
La información siempre, y con mayor razón hoy en día, es importante para la toma de decisiones
las que deben ser oportunas y óptimas. Con mala o insuficiente información posiblemente la
decisión sea mala, por muy bueno que sea el procesamiento de ésta. Por el contrario, por muy
buena que sea la información si el procesamiento es malo seguramente también la decisión sea
equivocada. En consecuencia, un sólido respaldo para una acertada toma de decisiones,
contempla ambos aspectos: información buena y suficiente, procesamiento correcto.
3
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
OBJETIVOS
4
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
MARCO TEÓRICO
1. ESTADÍSTICA DESCRIPTIVA
Si se mide la corriente que circula por un alambre de cobre delgado, lo que se está haciendo es un
experimento. Sin embargo, al repetir la medición durante varios días, los resultados que se obtienen
son un poco diferentes debido a pequeñas variaciones en las variables que no están controladas en
el experimento, como son los cambios de temperatura ambiente, ligeras variaciones en el
instrumento de medición y pequeñas impurezas en la composición química del alambre en distintas
partes, además de las
variaciones de la fuente de corriente. En consecuencia, se dice que este experimento, así como
muchos otros, tiene un componente aleatorio. En algunos casos, las variaciones aleatorias
observadas son tan pequeñas en relación con las metas del experimento, que pueden ignorarse. Sin
embargo, la variación casi siempre está presente y su magnitud puede llegar a ser tan importante a
tal grado, que las conclusiones del experimento no sean muy evidentes.
Otro ejemplo de experimento es la selección de una pieza de la producción de un día y la medición
con bastante exactitud de la longitud de está. En la práctica pueden presentarse pequeñas
variaciones de las longitudes de las medidas, por muchas causas, tales como vibraciones,
fluctuaciones de temperatura, diferencias entre quienes toman las mediciones, calibraciones,
desgastes en la herramienta de corte,
desgaste en los cojinetes y cambios en la materia prima. Incluso el procedimiento de medición
puede producir variaciones en los resultados finales.
En estos tipos de experimentos, las mediciones de interés, (la corriente en el alambre de cobre, la
longitud de una pieza maquinada), pueden representarse con una variable aleatoria. Es razonable
modelar el rango de los valores posibles de la variable aleatoria con un intervalo (finito o infinito)
de números reales. Por ejemplo, para la longitud de una parte maquinada, este modelo permite que
las mediciones del experimento
produzcan cualquier valor dentro de un intervalo de números reales. Este intervalo puede
concebirse como un continuo de valores, en consecuencia, se define que “si el rango de una
5
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
6
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
Ejemplo: Sea E el suceso de que aparezcan los números 3 ó 4 en una sola tirada de un dado. Hay
seis casos que pueden presentarse, que son: 1, 2, 3, 4, 5 y 6. Los seis casos son igualmente posibles.
Puesto que E puede presentarse con dos de estos casos, entonces: p = P{E} = 2/6 = 1/3
Debe tenerse muy en cuenta que la probabilidad de un suceso es un número comprendido entre 0
y 1. Si el suceso es imposible (no puede ocurrir) su probabilidad es cero. Si es un suceso cierto
(tiene que ocurrir) su probabilidad es uno.
La naturaleza del estudio que se considera en el presente curso, condiciona a que solo se aborde el
caso de variables aleatorias continuas, dejando de lado el tratamiento de variables aleatorias
discretas.
1.2 DISTRIBUCIÓN DE VARIABLES ALEATORIAS CONTINUAS
Una función f(x) es una función de densidad de probabilidad, fdp, de la variable aleatoria continua
X, si para cualquier intervalo de números reales [a,b], se tiene:
Es decir, la probabilidad P (a ≤ X < b) es el área sombreada de la gráfica de f(x), Figura 3.1, para
las líneas verticales x = a y x = b. Esta área da la probabilidad de que X se encuentre entre a y b.
En cierto sentido, f(x) es el límite de la frecuencia relativa normalizada de un histograma al
incrementarse el número de clases y cuando los intervalos de clase tienden a cero.
7
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
El área sombreada representa P (a ≤ X < b). a que áreas tales como P (a ≤ X < b) para toda a < b,
representan probabilidades, se requiere que el área total debajo del gráfico de f(x) y x, sea igual a
1. Más aún que las probabilidades son siempre positivas, se necesita que: f(x) ≥ 0; x ε R. Es
interesante observar que, si el espacio bajo la curva corresponde a un solo valor de x, x = b
entonces:
Esto concuerda con lo intuitivo, porque si el espacio R es un intervalo con infinita cantidad de
puntos, la probabilidad de un solo punto en particular es cero.
Ejemplo: Consideremos una rueda con una aguja giratoria balanceada:
La aguja al ser girada se detendrá en cualquier punto entre 0 y 1. Un modelo razonable para la
variable aleatoria X es f(x) = 1; x ε R = {x; 0 ≤ x < 1}, o de otra forma:
f(x) = 1; 0 ≤ x < 1
Tal fdp es constante en el espacio R. Para este modelo la probabilidad de:
8
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
Esto es, se puede incluir o excluir los signos de igualdad en estas expresiones sin cambiar la
probabilidad.
1.3 LA DISTRIBUCIÓN NORMAL
La distribución normal es la más importante distribución en el estudio de la estadística, debido a
que son muchos los fenómenos que son normalmente distribuidos. Esta distribución fue
desarrollada el siglo pasado por el matemático alemán Karl F. Gauss, de modo que la distribución
normal se conoce también como distribución Gaussiana.
Si X tiene una distribución normal, con promedio μ y varianza σ2, su fdp es:
9
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
Si en la ecuación (2) hacemos que z = (x-μ)/σ tal que x = μ +σ z y dx/dz = σ , (dx =σ dz) se tiene
que:
Se puede observar que la integral de la ecuación (3) no es fácil de determinar por lo que se recurre
al uso de métodos numéricos. En Tablas aparecen tabulados los valores de esta integral para una
distribución N(0,1), (Función Estándar de Distribución Normal) representada por:
Una variable aleatoria normal con μ = 0 y σ2 = 1 recibe el nombre de variable aleatoria normal
estándar y se denota como Z.
Las distribuciones normales sólo varían con respecto a la media y/o la desviación estándar. La
media determina la posición de una curva sobre el eje horizontal. La desviación estándar determina
el grado de amplitud o dispersión entre los elementos. La Figura 3.3 (a) muestra dos distribuciones
normales con idénticas desviaciones estándar, pero con medias distintas. La Figura 3.3 (b) muestra
dos distribuciones
normales con idénticas medias y diferentes desviaciones estándar.
10
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
A B
Fig. 3: (A) Distribuciones estándar: medias diferentes y desviaciones estándar iguales; (B) Distribuciones estándar: medias
iguales y desviaciones estándar distintas.
Hay un número infinito de funciones de densidad normal, una para cada combinación de μ y σ. La
media μ mide la ubicación de la distribución y la desviación estándar σ mide la dispersión.
No es posible obtener una expresión de forma cerrada par la integral de la función de densidad
normal. Sin embargo, se puede calcular el área debajo de la curva normal utilizando
procedimientos de aproximación.
Se dice entonces que:
Si X es una variable aleatoria normal con media μ y varianza σ2, entonces:
es una variable aleatoria normal con media cero y varianza 1. La variable aleatoria Z se denomina
variable normal estándar.
Las áreas de la variable normal estándar se dan en la Tabla A de los apéndices. Son las áreas bajo
la curva normal entre z = -∞ y un valor cualquiera de z, valores que definen la probabilidad de
algún evento.
Por ejemplo, la probabilidad φ (1.5) = 0.932 corresponde al área sombreada de la Figura 4.
11
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
Con esta notación se puede escribir una probabilidad determinada, como por ejemplo:
P(-1 < Z < 1.5) = φ(1.5) - φ(-1.0)
o sea, se determina el área hasta 1.5 en la fdp y se resta el área de la curva de -∞ a -1. Debido a la
simetría de f(x) alrededor de z, es correcto que φ(-1.0) = 1 - φ(1.0), o en términos más generales:
φ(-z) = 1- φ(z)
Así, se puede determinar:
P(-1 < Z < 1.5) = φ(1.5) - [1 - φ(1.0)]
= 0.9332 - (1 - 0.8413) = 0.7745
Lo anterior corresponde a la distribución estándar N(0,1) . Supóngase ahora de que X es N(μ = 75,
σ2 =100) y queremos determinar P(70 < X <90). En estos casos, la Tabla respectiva puede ser
utilizada según:
Esto es, se puede estandarizar la distribución en referencia para una distribución N(0,1).
Ejemplo: si X N(75, 100), entonces:
12
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
13
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
Debido a que más del 0.9973 de la probabilidad de una distribución normal está comprendida en
el intervalo:
(μ - 3σ < X < μ + 3σ),
a menudo se hace referencia a la cantidad 6σ como el ancho de la distribución normal. El área que
se está más allá de 3σ de la media es muy pequeña
Un mejor entendimiento de la distribución normal y de sus parámetros μ y σ se logra con lo
siguiente evaluación de probabilidades. Si X es N(μ, σ2 ), para un valor k > 0 tenemos que:
14
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
DISTRIBUCIÓN DE MUESTRA.
Se ha estimado parámetros como el promedio μ y la desviación estándar, σ de una distribución
normal, basados en observaciones x1, x2,...,xn que fueron obtenidos por muestreo de una
población de interés. Sin embargo, hay que reconocer que generalmente estos estimados no son
iguales a los verdaderos valores de la población considerada. Es decir: x≠ μ; s ≠ σ. De esto resulta,
por ejemplo, que, si se repite varias veces el muestreo de una misma población y de cada muestreo
de obtiene x y s, cada uno de los respectivos valores diferirán entre sí. Si realizamos N muestreos,
se obtendrá x1, x2……. Xn promedios. Estos estimadores (x, s2 , s,) por lo tanto tendrán una
distribución, de lo que resulta que es necesario evaluar la confiabilidad de los estimadores. Se
estará hablando por ejemplo de la varianza de promedios. Si esta varianza es muy grande, no se
tendrá mucha confianza en la evaluación hecha mediante varios muestreos. Todo esto da sentido
a la expresión distribución de muestra o distribución de estimadores de muestreos.
El muestreo introduce variabilidad en los estimadores. Esta fuente de variabilidad se denomina
variabilidad de muestreo o variabilidad debido al muestreo.
tomada de una población de media μ y varianza σ2, entonces X es un valor de una variable aleatoria
cuya distribución tiene media μ. Para muestras de población infinitas, la varianza de esta
distribución es σ2/n, o lo que es lo mismo:
esto es, el promedio de muestra x es el mismo que el de la distribución. Sin embargo, la varianza
es la misma de la distribución, pero dividida por el tamaño de la muestra. El promedio de muestra
x es el más común estimador del promedio de población μ, ambos valores, (x y μ) diferirán entre
si cada vez que se evalúe un promedio de muestra.
15
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
y la distribución de Z es N(0, 1)
Intervalos de confianza para promedios
El intervalo de confianza es el conjunto de valores obtenido a partir de los datos muestrales en el
que hay una determinada probabilidad de que se encuentre el parámetro poblacional. Esta
probabilidad se le conoce como el nivel de confianza.
Por ejemplo, en una encuesta se encontró que en una determinada región el ingreso mensual
promedio de los trabajadores de la construcción es de 2.5 SMLM. Un intervalo podrá ser que el
salario promedio global este entre 2 y 3 SMLM.
16
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
El 95% de las medias muestrales obtenidas de una población se encuentra a no más de 1.96
desviaciones estándar de la media poblacional.
El 99% de las medias poblacionales sse encuentran a no más de 2.58 desviaciones estándar
de la media poblacional.
Cuando el tamaño de la muestra es grande o la variable tiene distribución normal, el
intervalo de confianza está dado por:
𝜎 𝜎
𝑋̅ − 𝑍𝛼 ∗ ≤ 𝜇 ≥ 𝑋̅ + 𝑍𝛼 ∗
2 √𝑛 2 √𝑛
𝜎 𝜎
P⟮𝑋̅ − 𝑍𝛼 ∗ ≤ 𝜇 ≥ 𝑋̅ + 𝑍𝛼 ∗ ⟯= 1-𝛼
2 √𝑛 2 √𝑛
17
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
5 5
P⟮14.6 − 1.28 ∗ ≤ 𝜇 ≥ 14.6 + 1.28 ∗ ⟯= 0.80
√1600 √1600
Los colombianos ven televisión en promedio entre 14.4 y 14.76 horas con un nivel de confianza
del 80%.
𝜎1 2 𝜎2 2
N (𝜇1 , ); N (𝜇2 , )
𝑛1 𝑛2
𝜎1 2 𝜎2 2
Var (𝑋̅- ̅𝑌) = Var (𝑋̅) + Var (𝑌̅) = 𝑛1
+ 𝑛2
𝜎1 2 𝜎2 2
N (𝜇1 - 𝜇2 , + )
𝑛1 𝑛2
Entonces:
𝜎 2 𝜎2 2 𝜎12 𝜎2 2
(𝑋̅- ̅𝑌-𝑍𝛼 √ 1 + , 𝑋̅- ̅𝑌+𝑍𝛼 √ + )
2 𝑛1 𝑛2 2 𝑛1 𝑛2
18
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
"Si 𝑋̅ es la media de una muestra aleatoria de tamaño n tomada de una población normal con la
media μ y varianza σ2, entonces:
𝑋̅−𝜇
t= 𝑠
√𝑛
Es el valor de una variable aleatoria que tiene una distribución t-Student de parámetro r = n - 1
grados de libertad.
En este caso no se requiere conocer σ y se debe trabajar con una población normal.
Propiedades de la distribución t
19
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
𝑐
f(t)= 𝑡 2 𝑟+1
; −∞ < 𝑡 < +∞
(1+ ) 2
𝑟
Donde c es un valor tal que el área debajo de f(t) = 1. Se comprueba que E (t) = 0 y Var (t) = r/r-2
para r>2. La varianza de t es mayor de 1 pero se aproxima a ese valor cuando n →∝. Esta densidad
se parece mucho a la distribución N (0, 1), especialmente para valores grandes de r.
"Si 𝑠 2 es la varianza de una muestra aleatoria de tamaño n tomada de una población normal, que
tiene varianza σ2, entonces:
20
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
2
(𝑛 − 1)𝑠 2
𝑋 =
𝜎2
Es el valor de una variable aleatoria que tiene distribución 𝑋 2 con parámetro r = n - 1 llamado
grados de libertad"
En la Tabla respectiva se anotan valores seleccionados de 𝑋 2 (α; r), donde el área bajo la curva
de la distribución χ2 (tomada a la derecha) es igual a α.
2 2
Por ejemplo,si 𝑋0.025 𝑋0.975 son los valores de 𝑋 2 (llamados valores críticos), para que el 2.5%
del área se encuentre en cada cola de la distribución, entonces el intervalo de confianza al 95%
para la varianza es:
21
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
22
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
Ejemplo Ilustrativo.
Supóngase que se quiere determinar si ciertos cambios en un proceso productivo reducen el tiempo
que le toma a un obrero completar una tarea de ensamblaje de un producto. Supóngase que en
condiciones normales, en promedio, un trabajador emplea 30 minutos en completar la tarea de
ensamblaje. También se sabe que ese tiempo promedio presenta variación; esto es, el tiempo de
ensamblaje es una variable
aleatoria que se puede representar por X. Mas aún, existe suficiente información para asegurar que
X esta normalmente distribuida y tiene promedio m = 30 y una desviación estándar s = 1. Esto
implica que aproximadamente 95% de los tiempos de ensamblaje se encuentran entre 28 y 32
minutos.
En este ejemplo se va a evaluar una hipótesis relacionada al parámetro m, con el supuesto de que
s = 1 aún después de los cambios efectuados. Luego de concretados los cambios en el proceso de
ensamblaje, se plantean dos hipótesis:
- La hipótesis del no cambio (hipótesis nula), que establece que m sigue siendo 30 minutos; y
- La hipótesis alternativa que sugiere que m < 30 minutos:
Para determinar la validez de una de estas hipótesis se procede a la recolección de información.
Primeramente, se elige aleatoriamente a un solo trabajador para evaluar el efecto de los cambios
realizados. Se observa que este trabajador emplea 29 minutos en la tarea normal de ensamblaje.
Con este dato, y teniendo en consideración que X proviene de N(30, 1) se evalúa:
23
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
Esto hace que para una N(30, 1), con n = 25, X=29min. es un evento extremadamente improbable.
Ciertamente, esto quita consistencia a la hipótesis de que m sigue siendo 30 minutos. Por ello se
puede afirmar que, efectivamente, el tiempo de ensamblaje de cada trabajador se ha reducido.
En términos técnicos, se dice que: los cambios efectuados en el proceso productivo originan una
diferencia estadísticamente significativa en el tiempo de ensamblaje; o bien, que la diferencia en
el tiempo, 30 - 29 = 1 es estadísticamente significativa.
Es necesario aclarar que una diferencia estadísticamente significativa no siempre es de utilidad
práctica; ya que por ejemplo, la reducción de un minuto en el promedio m no podría representar
ahorros importantes en el proceso productivo. La decisión final de adoptar los cambios concierne
a una evaluación de estructura de costos, que estas técnicas estadísticas no pueden resolver.
DEFINICIÓN DE HIPÓTESIS
Para llegar a tomar decisiones, conviene hacer determinados supuestos o conjeturas acerca de las
poblaciones que se estudian. Tales supuestos, que pueden ser ciertos ó no, se denominan hipótesis
estadísticas. Por ejemplo, si se quiere decidir si un procedimiento es mejor que otro, se formulan
las hipótesis:
- No hay diferencia estadística entre los dos procesos; y
- Si existe diferencia estadística entre los dos procesos.
La primera se define como la hipótesis del "no cambio" o “hipótesis nula” y se simboliza por Ho.
La segunda se denomina “hipótesis alternativa” y se simboliza por H1.
Por ejemplo, una empresa produce circuitos impresos con probabilidad histórica de producto
fallado igual al 3% (P = 0.03). Un ingeniero de producción sugiere cambios en el proceso y asegura
que tales cambios causarán una reducción de la probabilidad de falla; es decir, asegura que P <
0.03. Por lo tanto, se deberá evaluar:
Ho : P = 0.03 (Hipótesis Nula)
H1 : P < 0.03 (Hipótesis Alternativa)
24
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
NIVEL DE SIGNIFICACIÓN
Se acostumbra a fijar niveles de significación de 0.1, 0.05 y 0.01, aunque se puede fijar otros
valores. Si por ejemplo, se fija un nivel de significación del 0.05 (5%) al diseño de un ensayo de
hipótesis, entonces hay aproximadamente 5 ocasiones en 100 en que se rechazaría una hipótesis
cuando debería ser aceptada. En otras palabras, se estaría 95% seguro de que se toma la decisión
adecuada.
Para efectuar una prueba con un nivel de significación a se escoge una región crítica (es decir una
región de rechazo de Ho) para X < c, tal que:
25
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
En la Figura 4.1,”c” representa el valor crítico. La región a la derecha de este punto es la región
de aceptación de Ho y la región a la izquierda de “c” es la de aceptación de H1 . El punto c es tal
26
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
El valor de “α” depende de cada aplicación. Un valor muy frecuentemente utilizado es α = 0.05.
si altos costos están asociados a la evaluación, conviene utilizar valores más pequeños de α. Sin
embargo, para valores pequeños de a implica un valor alto de z(a) y la prueba se torna muy
conservadora, tal que se rechaza Ho solo en casos muy extremos.
Otra forma de conducir las pruebas de hipótesis es utilizando el concepto de valor de probabilidad
o el valor 'p'. Por ejemplo, en el caso de disminución de tiempos de ensamblaje de un producto de
n = 34, si X=29.68 para N(30, 1), se puede obtener un valor p, tal que:
En este caso se rechaza Ho si el valor de p es menor que α = 0.05 (es decir para un nivel de
significación de 0.05). Esto se ilustra en la Figura 4.2.
27
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
28
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
Los anteriores conceptos asumen que se tiene una distribución N (0,1) con 𝜎 2 conocida. Si ahora
la varianza 𝜎 2 es estimada por la varianza de muestra 𝜎 2 , la distribución de muestra:
𝑥̅ − 𝜇
𝑡= 𝑠
√𝑛
Es una distribución t con n-1 = r grados de libertad y los valores críticos 𝑧(𝛼) deben ser
reemplazados por t(a; n-1). Si acaso n es grande (por lo menos 30) se puede utilizar la Tabla
normal.
29
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
Las regiones críticas resultantes se muestran en la Tabla de t-Student, en donde por ejemplo
𝑡 (𝛼 ; 𝑛 − 1) es el área a la derecha bajo la curva de distribución 𝑡 con 𝑛 − 1 grados de libertad y
es igual a 𝛼.
Una de las pruebas más importante que se hace en estadística es aquellas para las que se compara
dos métodos diferentes. Por ejemplo, si se han considerado dos tipos de acero para ser usado en
ciertas vigas de estructura metálica, se tomarán muestras y decidirá cuál es mejor al comparar sus
resistencias medias.
Generalmente se compara las medias de dos distribuciones, de lo que resulta que se establecen las
hipótesis nula y alternativa:
30
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
Consideremos dos muestras aleatorias cada una con una distribución independiente y con
promedios 𝜇1 y 𝜇2 , varianzas 𝜎12 𝑦 𝜎22 respectivamente y de tamaño 𝑛 1 y 𝑛 2, denotadas
por: 𝑥1 , 𝑥2 , … , 𝑥𝑛1 y 𝑦1 , 𝑦2 , … , 𝑦𝑛2 y que son aproximadamente:
𝑥−𝑦
𝑍=
𝜎2 𝜎2
√ 1 + 2
𝑛1 𝑛2
Si las varianzas 𝜎12 𝑦 𝜎22 son desconocidas, estas pueden ser reemplazadas por las varianzas de
muestra 𝑆12 𝑦 𝑆22 . En este caso se toma en consideración los grados de libertad 𝑟1 , = 𝑛1 − 1 𝑦 𝑟2 , =
𝑛2 − 1, y bajo la hipótesis nula 𝐻𝑜 ∶ 𝜇 = 𝜇0 , la variable aleatoria:
𝑥−𝑦
𝑇=
(𝑛 − 1)𝑆𝑥2 + (𝑛2 − 1)𝑆𝑦2 1 1
√ 1 (𝑛1 𝑛2 )
+
𝑛1 + 𝑛2 − 2
31
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
Hasta aquí se ha asumido que las observaciones provienen de dos grupos independientes entre sí.
En la mayoría de aplicaciones esto es válido, pero hay circunstancias en las que se debe asumir
dependencia entre las observaciones. Por ejemplo, considérese una máquina que mide la dureza
de un metal por la profundidad de la marca hecha por la punta de la máquina en la probeta a
evaluar. Esta máquina dispone de dos puntas, diferentes la una a la otra, aun cuando la variabilidad
de las dos parece ser la misma.
Si se desea evaluar si existe diferencia en las medidas de dureza de ambas puntas, se puede optar
por ejemplo en tomar 20 probetas de metal y aleatoriamente escoger 10 probetas para cada una de
las puntas.
Este sencillo y lógico procedimiento puede tener desventajas. Supóngase que las 20 probetas
fueron obtenidas de distintas existencias del mismo material, que podrían tener algunas diferencias
físicas entre sí, (por ejemplo, diferente dureza entre los distintos lotes). Esto contribuiría a
incrementar el error experimental, variabilidad y haría más difícil detectar las diferencias entre
ambas puntas.
Para salvar esta posibilidad de obtener una conclusión errónea, se puede optar por otro
procedimiento. Si cada probeta es lo suficientemente grande, se puede utilizar cada una de las
probetas para medir la dureza con las dos puntas. El orden y ubicación de medición se deberá
32
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
ejecutar aleatoriamente. En este caso las mediciones están mutuamente relacionadas y se dice que
hay dependencia entre las observaciones.
̅
𝑊
𝑡=
𝑆𝑤 /√𝑛
Donde 𝑆𝑤 es la desviación estándar de las diferencias, W. Una prueba de hipótesis por ejemplo
̅ /(𝑆𝑤 /√𝑛) ≥ 𝑡 ( 𝛼; 𝑛 − 1). Si n es
puede ser 𝐻𝑜 ∶ 𝜇 = 𝜇0 versus 𝐻1 ∶ 𝜇 < 𝜇0 . Se acepta 𝑊
suficientemente grande, se puede utilizar la distribución normal.
Si se desea probar la hipótesis de que la varianza de una población normal 𝜎 2 es igual a un valor
específico, por ejemplo 𝜎02 . Sea 𝑥1 , 𝑥2 , … , 𝑥𝑛 una muestra aleatoria de n observaciones tomadas de
esta población. Para probar:
𝐻𝑜 ∶ 𝜎 2 = 𝜎02
𝐻𝑜 ∶ 𝜎 2 ≠ 𝜎02
(𝑛 − 1)𝑆 2
𝑋02 =
𝜎02
33
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
Donde 𝑋𝛼2,𝑛−1 y 𝑋𝛼2,𝑛−1 son los puntos que corresponden a los porcentajes 100𝛼/2 inferior y
2 2
El mismo estadístico se utiliza para las hipótesis alternativas unilaterales. Para la hipótesis
unilateral:
𝐻𝑜 ∶ 𝜎 2 = 𝜎02
𝐻𝑜 ∶ 𝜎 2 ≠ 𝜎02
𝐻𝑜 ∶ 𝜎 2 = 𝜎02
𝐻1 ∶ 𝜎 2 < 𝜎02
2
Se rechaza 𝐻𝑜 si 𝑋02 > 𝑋1−𝛼 ,𝑛−1
2
Supóngase que se tiene interés en dos poblaciones normales independientes, donde las medias y
varianzas de la población, 𝜇1 , 𝜎12 , 𝜇2 𝑦, 𝜎22 son desconocidos. Se desea probar las hipótesis sobre
la igualdad de las dos varianzas 𝐻𝑜 ∶ 𝜎12 = 𝜎22 por ejemplo. Si se tienen dos muestras aleatorias
34
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
𝐻𝑜 ∶ 𝜎12 = 𝜎22
Se utiliza el estadístico:
𝑆12
𝐹=
𝑆22
𝑆2
Se rechaza 𝐻𝑜 ∶ 𝜎12 = 𝜎22 y se acepta 𝐻𝑜 ∶ 𝜎12 > 𝜎22 si 𝑆𝑥2 ≥ 𝐹(𝛼, 𝑛1 − 1, 𝑛2 − 1)
𝑦
35
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
Hasta ahora las inferencias referentes a la diferencia entre medias de dos poblaciones
se han presentado bajo el supuesto de que las varianzas poblacionales son conocidas o
desconocidas, pero iguales. Si las varianzas no son iguales, al usar los estimadores
insesgados 𝑆12 𝑦 𝑆22 en vez de 𝜕12 𝑦 𝜕22 la cantidad:
𝑋̅1 − 𝑋̅2
𝑡=
𝑆12 𝑆22
√
𝑛1 + 𝑛2
𝑋̅1 − 𝑋̅2
𝑡∗ =
𝑆2 𝑆2
√ 1+ 2
𝑛1 𝑛2
36
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
Ejemplo:
Para probar la efectividad de dos pegamentos se utilizan 41 moldes pegados con cada
uno de esos pegamentos. Se mide la fuerza para romper los moldes pegados con los
siguientes resultados:
37
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica
CONCLUSIONES
BIBLIOGRAFÍA
38