Está en la página 1de 38

AÑO DE LA LUCHA CONTRA LA CORRUPCIÓN E IMPUNIDAD

UNIVERSIDAD NACIONAL DE CAJAMARCA


FACULTAD DE INGENIERÍA
ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA GEOLÓGICA

ESTADÍSTICA DESCRIPTIVA Y PRUEBAS DE HIPOTESIS ESTADÍSTICAS

PRESENTADO POR:

- CARRANZA LEYVA, Emerson.

- GALLARDO SAENZ, David.

- MANTILLA BRIONES, Hernan.

- MEJIA MEJIA, Karla.

-MEJIA MEJIA, Elmer.

ASIGNATURA:
GEOESTADÍSTICA GENERAL

DOCENTE:
ING. CHUQUIRUNA CHÁVEZ, Wilder.

Cajamarca, febrero del 2020.


UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

ÍNDICE
INTRODUCCIÓN............................................................................................................................................. 3
OBJETIVOS ..................................................................................................................................................... 4
MARCO TEÓRICO .......................................................................................................................................... 5
1. ESTADÍSTICA DESCRIPTIVA ................................................................................................................ 5
1.1 VARIABLE ALEATORIA...................................................................................................................... 6
1.2 DISTRIBUCIÓN DE VARIABLES ALEATORIAS CONTINUAS ................................................................ 7
1.3 LA DISTRIBUCIÓN NORMAL............................................................................................................. 9
DISTRIBUCIÓN DE MUESTRA............................................................................................................... 15
Distribución del promedio de muestra, x ........................................................................................... 15
Intervalos de confianza para promedios ............................................................................................ 16
Intervalos de confianza para 𝝁1 - 𝝁2 ................................................................................................ 18
Inferencias con pequeñas muestras y varianzas desconocidas .......................................................... 19
DISTRIBUCIÓN 𝑿𝟐, (CHI CUADRADO) ................................................................................................. 20
Intervalos de confianza para la varianza............................................................................................. 21
2. PRUEBAS DE HIPOTESIS ESTADISTICA ............................................................................................. 22
DEFINICIÓN DE HIPÓTESIS .................................................................................................................. 24
NIVEL DE SIGNIFICACIÓN .................................................................................................................... 25
HIPÓTESIS REFERENTE A LA MEDIA .................................................................................................... 25
HIPÓTESIS REFERENTE A LA MEDIA: COLA INFERIOR ......................................................................... 26
HIPÓTESIS REFERENTE A LA MEDIA: COLA SUPERIOR ........................................................................ 28
HIPOTESIS REFERENTE A LA MEDIA: DOS COLAS ................................................................................ 29
HIPÓTESIS REFERENTE A MEDIAS DE MUESTRAS PEQUEÑAS ............................................................ 29
HIPÓTESIS REFERENTE A DOS MEDIAS................................................................................................ 30
COMPARACIÓN DE DOS MUESTRAS INDEPENDIENTES GRANDES ..................................................... 31
COMPARACIÓN CON PEQUEÑAS MUESTRAS ..................................................................................... 31
PRUEBAS DE COMPARACIÓN POR PARES ........................................................................................... 32
PRUEBA PARA 𝝈𝟐 = 𝝈𝟎𝟐 ................................................................................................................... 33
PRUEBA PARA 𝝈𝟏𝟐 = 𝝈𝟐𝟐 ................................................................................................................. 34
COMPARACIÓN DE MUESTRAS CUANDO 𝝈𝟏𝟐 ≠ 𝝈𝟐𝟐 ....................................................................... 36
CONCLUSIONES ........................................................................................................................................... 38
BIBLIOGRAFÍA.............................................................................................................................................. 38

2
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

INTRODUCCIÓN

La información siempre, y con mayor razón hoy en día, es importante para la toma de decisiones
las que deben ser oportunas y óptimas. Con mala o insuficiente información posiblemente la
decisión sea mala, por muy bueno que sea el procesamiento de ésta. Por el contrario, por muy
buena que sea la información si el procesamiento es malo seguramente también la decisión sea
equivocada. En consecuencia, un sólido respaldo para una acertada toma de decisiones,
contempla ambos aspectos: información buena y suficiente, procesamiento correcto.

La Estadística es una disciplina que proporciona la metodología, fundada en la Matemática, para


obtener, recopilar, procesar, resumir y presentar datos referentes a un estudio de interés,
transformándolos en estadísticas con el fin de interpretarlas para obtener conclusiones, dando
garantía de idoneidad en los procedimientos. También propone metodologías que permita
deducir características poblacionales a partir de muestras de ella.

La estadística descriptiva es un conjunto de técnicas numéricas y gráficas para describir y


analizar un grupo de datos, sin extraer conclusiones (inferencias) sobre la población a la que
pertenecen.

3
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

OBJETIVOS

 Definir el concepto de variable aleatoria


 Explicar la distribución de variables aleatorias continuas, distribución normal, distribución de
muestra, distribución del promedio de muestra.
 Determinar los intervalos de confianza

4
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

MARCO TEÓRICO

1. ESTADÍSTICA DESCRIPTIVA
Si se mide la corriente que circula por un alambre de cobre delgado, lo que se está haciendo es un
experimento. Sin embargo, al repetir la medición durante varios días, los resultados que se obtienen
son un poco diferentes debido a pequeñas variaciones en las variables que no están controladas en
el experimento, como son los cambios de temperatura ambiente, ligeras variaciones en el
instrumento de medición y pequeñas impurezas en la composición química del alambre en distintas
partes, además de las
variaciones de la fuente de corriente. En consecuencia, se dice que este experimento, así como
muchos otros, tiene un componente aleatorio. En algunos casos, las variaciones aleatorias
observadas son tan pequeñas en relación con las metas del experimento, que pueden ignorarse. Sin
embargo, la variación casi siempre está presente y su magnitud puede llegar a ser tan importante a
tal grado, que las conclusiones del experimento no sean muy evidentes.
Otro ejemplo de experimento es la selección de una pieza de la producción de un día y la medición
con bastante exactitud de la longitud de está. En la práctica pueden presentarse pequeñas
variaciones de las longitudes de las medidas, por muchas causas, tales como vibraciones,
fluctuaciones de temperatura, diferencias entre quienes toman las mediciones, calibraciones,
desgastes en la herramienta de corte,
desgaste en los cojinetes y cambios en la materia prima. Incluso el procedimiento de medición
puede producir variaciones en los resultados finales.
En estos tipos de experimentos, las mediciones de interés, (la corriente en el alambre de cobre, la
longitud de una pieza maquinada), pueden representarse con una variable aleatoria. Es razonable
modelar el rango de los valores posibles de la variable aleatoria con un intervalo (finito o infinito)
de números reales. Por ejemplo, para la longitud de una parte maquinada, este modelo permite que
las mediciones del experimento
produzcan cualquier valor dentro de un intervalo de números reales. Este intervalo puede
concebirse como un continuo de valores, en consecuencia, se define que “si el rango de una

5
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

variable aleatoria X contiene un intervalo (ya sea infinito o finito) de


números reales, entonces X es una variable aleatoria continua.
En general podemos decir que La estadística descriptiva es la rama de las Matemáticas que
recolecta, presenta y caracteriza un conjunto de datos (por ejemplo, edad de una población, altura
de los estudiantes de una escuela, temperatura en los meses de verano, etc.) con el fin de
describir apropiadamente las diversas características de ese conjunto. (Becerra)

1.1 VARIABLE ALEATORIA


Si arrojamos dos dados, sabemos que la suma X de los puntos que caen hacia arriba debe ser un
número entero entre 2 y 12, pero no podemos predecir qué valor de X aparecerá en el siguiente
ensayo y podemos decir que X depende del azar. El tiempo de vida de un foco que se extrae
aleatoriamente de un lote de
focos depende también del azar.
Si las observaciones no se dan en términos de números, podemos asignarles números y reducir las
observaciones cualitativas al caso cuantitativo. Por ejemplo, si se lanza una moneda 3 veces, el
número de “caras” es una variable aleatoria X que toma los valores 0, 1, 2 ó 3 (que representan en
número de veces que se obtiene “caras” en los 3 lanzamientos de la moneda). Así tenemos que la
función que asigna números o valores a cada uno de los elementos del espacio muestra con una
probabilidad definida, se denomina variable aleatoria.
El espacio de muestra es el dominio de la función y el conjunto de valores que la variable puede
tomar es el rango de la función, que es un subconjunto de números reales. Si el rango de X es el
conjunto de números enteros Z o un subconjunto de Z, la variable aleatoria se llama variable
aleatoria discreta, y si el rango es el conjunto de números reales, R, o un subconjunto de R, la
variable aleatoria se llama variable aleatoria continua. Son ejemplos de variables aleatorias
continuas: la estatura, el peso, la edad, el volumen, el pH, etc. Algunos ejemplos de variables
discretas son: el número de alumnos en una clase, el número de accidentes de automóvil, número
de piezas defectuosas por lote, etc.
La posibilidad de ocurrencia de un valor para la variable aleatoria se determina en términos de su
probabilidad. Supóngase un suceso E, que de un total de n casos posibles, todos igualmente
factibles, puede presentarse en h de los casos. Entonces la probabilidad de aparición del suceso
(llamada su

6
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

ocurrencia) viene dada por:

Ejemplo: Sea E el suceso de que aparezcan los números 3 ó 4 en una sola tirada de un dado. Hay
seis casos que pueden presentarse, que son: 1, 2, 3, 4, 5 y 6. Los seis casos son igualmente posibles.
Puesto que E puede presentarse con dos de estos casos, entonces: p = P{E} = 2/6 = 1/3
Debe tenerse muy en cuenta que la probabilidad de un suceso es un número comprendido entre 0
y 1. Si el suceso es imposible (no puede ocurrir) su probabilidad es cero. Si es un suceso cierto
(tiene que ocurrir) su probabilidad es uno.
La naturaleza del estudio que se considera en el presente curso, condiciona a que solo se aborde el
caso de variables aleatorias continuas, dejando de lado el tratamiento de variables aleatorias
discretas.
1.2 DISTRIBUCIÓN DE VARIABLES ALEATORIAS CONTINUAS
Una función f(x) es una función de densidad de probabilidad, fdp, de la variable aleatoria continua
X, si para cualquier intervalo de números reales [a,b], se tiene:

Es decir, la probabilidad P (a ≤ X < b) es el área sombreada de la gráfica de f(x), Figura 3.1, para
las líneas verticales x = a y x = b. Esta área da la probabilidad de que X se encuentre entre a y b.
En cierto sentido, f(x) es el límite de la frecuencia relativa normalizada de un histograma al
incrementarse el número de clases y cuando los intervalos de clase tienden a cero.

7
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

fig. 1: Gráfico de la densidad de probabilidad f(x).

El área sombreada representa P (a ≤ X < b). a que áreas tales como P (a ≤ X < b) para toda a < b,
representan probabilidades, se requiere que el área total debajo del gráfico de f(x) y x, sea igual a
1. Más aún que las probabilidades son siempre positivas, se necesita que: f(x) ≥ 0; x ε R. Es
interesante observar que, si el espacio bajo la curva corresponde a un solo valor de x, x = b
entonces:

Esto concuerda con lo intuitivo, porque si el espacio R es un intervalo con infinita cantidad de
puntos, la probabilidad de un solo punto en particular es cero.
Ejemplo: Consideremos una rueda con una aguja giratoria balanceada:

La aguja al ser girada se detendrá en cualquier punto entre 0 y 1. Un modelo razonable para la
variable aleatoria X es f(x) = 1; x ε R = {x; 0 ≤ x < 1}, o de otra forma:
f(x) = 1; 0 ≤ x < 1
Tal fdp es constante en el espacio R. Para este modelo la probabilidad de:

8
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

es decir, la probabilidad de que al terminar de girar la aguja se


detenga entre el cuadrángulo ¼ y ½ es 0.25.
De otra forma, existe 25 % de probabilidades de que la aguja se detenga en el segundo cuadrángulo
de esa esfera.
Hay ciertas convenciones que se usan en el contexto de las variables aleatorias continuas. Ya que
en un caso continuo P(X=x) = 0, para todo x ε R, se tiene que:
P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b)

Esto es, se puede incluir o excluir los signos de igualdad en estas expresiones sin cambiar la
probabilidad.
1.3 LA DISTRIBUCIÓN NORMAL
La distribución normal es la más importante distribución en el estudio de la estadística, debido a
que son muchos los fenómenos que son normalmente distribuidos. Esta distribución fue
desarrollada el siglo pasado por el matemático alemán Karl F. Gauss, de modo que la distribución
normal se conoce también como distribución Gaussiana.
Si X tiene una distribución normal, con promedio μ y varianza σ2, su fdp es:

Se debe distinguir al promedio de muestra simbolizado por x del promedio de población


simbolizado por μ, y de la varianza de muestra, s2 con la varianza de población σ2.
La fdp de la distribución normal se abrevia diciendo que X es N(μ, σ2 ); es decir, X está
normalmente distribuida con promedio μ, y varianza σ2. El gráfico de f(x) es la bien conocida
curva de campana o curva de Gauss mostrada en la Figura 3.2. El gráfico de N(μ, σ2 ) es simétrico
con respecto a x = μ y alcanza su máximo valor en este punto.

9
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Fig. 2: Función de densidad de probabilidad de la distribución N(μ, σ2 ).

En general, se dice que X es N(μ, σ2 ) y se quiere determinar:

Si en la ecuación (2) hacemos que z = (x-μ)/σ tal que x = μ +σ z y dx/dz = σ , (dx =σ dz) se tiene
que:

Se puede observar que la integral de la ecuación (3) no es fácil de determinar por lo que se recurre
al uso de métodos numéricos. En Tablas aparecen tabulados los valores de esta integral para una
distribución N(0,1), (Función Estándar de Distribución Normal) representada por:

Una variable aleatoria normal con μ = 0 y σ2 = 1 recibe el nombre de variable aleatoria normal
estándar y se denota como Z.
Las distribuciones normales sólo varían con respecto a la media y/o la desviación estándar. La
media determina la posición de una curva sobre el eje horizontal. La desviación estándar determina
el grado de amplitud o dispersión entre los elementos. La Figura 3.3 (a) muestra dos distribuciones
normales con idénticas desviaciones estándar, pero con medias distintas. La Figura 3.3 (b) muestra
dos distribuciones
normales con idénticas medias y diferentes desviaciones estándar.
10
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

A B

Fig. 3: (A) Distribuciones estándar: medias diferentes y desviaciones estándar iguales; (B) Distribuciones estándar: medias
iguales y desviaciones estándar distintas.

Hay un número infinito de funciones de densidad normal, una para cada combinación de μ y σ. La
media μ mide la ubicación de la distribución y la desviación estándar σ mide la dispersión.
No es posible obtener una expresión de forma cerrada par la integral de la función de densidad
normal. Sin embargo, se puede calcular el área debajo de la curva normal utilizando
procedimientos de aproximación.
Se dice entonces que:
Si X es una variable aleatoria normal con media μ y varianza σ2, entonces:

es una variable aleatoria normal con media cero y varianza 1. La variable aleatoria Z se denomina
variable normal estándar.
Las áreas de la variable normal estándar se dan en la Tabla A de los apéndices. Son las áreas bajo
la curva normal entre z = -∞ y un valor cualquiera de z, valores que definen la probabilidad de
algún evento.
Por ejemplo, la probabilidad φ (1.5) = 0.932 corresponde al área sombreada de la Figura 4.

11
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Fig. 4: Función de densidad de probabilidad.

Con esta notación se puede escribir una probabilidad determinada, como por ejemplo:
P(-1 < Z < 1.5) = φ(1.5) - φ(-1.0)
o sea, se determina el área hasta 1.5 en la fdp y se resta el área de la curva de -∞ a -1. Debido a la
simetría de f(x) alrededor de z, es correcto que φ(-1.0) = 1 - φ(1.0), o en términos más generales:
φ(-z) = 1- φ(z)
Así, se puede determinar:
P(-1 < Z < 1.5) = φ(1.5) - [1 - φ(1.0)]
= 0.9332 - (1 - 0.8413) = 0.7745
Lo anterior corresponde a la distribución estándar N(0,1) . Supóngase ahora de que X es N(μ = 75,
σ2 =100) y queremos determinar P(70 < X <90). En estos casos, la Tabla respectiva puede ser
utilizada según:

Esto es, se puede estandarizar la distribución en referencia para una distribución N(0,1).
Ejemplo: si X N(75, 100), entonces:

12
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Ejemplo: El peso promedio de mineral en un camión es de 25 toneladas, según se ha determinado


de los pesos netos de mineral en 100 camiones muestreados. La desviación estándar es 5 ton.
Suponiendo que la variable peso de camión está distribuida normalmente, a) ¿Cuántos camiones
contienen entre 20 y 30 toneladas de mineral, b) ¿Cuántos camiones contienen más de 40
toneladas?
Se considera que μ = 25 ton y σ = 5 ton.; luego:

Entonces ~ 68 camiones contendrán entre 20 y 30 toneladas de mineral.

Luego, 0.0013 * 100 = 0,13 ~ 0 camiones contienen más de 40 ton.


La Figura 3.5 presenta un resumen de varios resultados útiles relacionados con la distribución
normal. Para cualquier variable aleatoria normal:
P(μ - σ < X < μ + σ) = 0.6827
P(μ -2σ < X < μ +2σ) = 0.9545
P(μ - 3σ < X < μ + 3σ) = 0.9973

13
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Fig. 5: Probabilidades asociadas a una distribución normal

Debido a que más del 0.9973 de la probabilidad de una distribución normal está comprendida en
el intervalo:
(μ - 3σ < X < μ + 3σ),
a menudo se hace referencia a la cantidad 6σ como el ancho de la distribución normal. El área que
se está más allá de 3σ de la media es muy pequeña
Un mejor entendimiento de la distribución normal y de sus parámetros μ y σ se logra con lo
siguiente evaluación de probabilidades. Si X es N(μ, σ2 ), para un valor k > 0 tenemos que:

Para valores selectos de k, se obtiene las siguientes probabilidades:

14
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

DISTRIBUCIÓN DE MUESTRA.
Se ha estimado parámetros como el promedio μ y la desviación estándar, σ de una distribución
normal, basados en observaciones x1, x2,...,xn que fueron obtenidos por muestreo de una
población de interés. Sin embargo, hay que reconocer que generalmente estos estimados no son
iguales a los verdaderos valores de la población considerada. Es decir: x≠ μ; s ≠ σ. De esto resulta,
por ejemplo, que, si se repite varias veces el muestreo de una misma población y de cada muestreo
de obtiene x y s, cada uno de los respectivos valores diferirán entre sí. Si realizamos N muestreos,
se obtendrá x1, x2……. Xn promedios. Estos estimadores (x, s2 , s,) por lo tanto tendrán una
distribución, de lo que resulta que es necesario evaluar la confiabilidad de los estimadores. Se
estará hablando por ejemplo de la varianza de promedios. Si esta varianza es muy grande, no se
tendrá mucha confianza en la evaluación hecha mediante varios muestreos. Todo esto da sentido
a la expresión distribución de muestra o distribución de estimadores de muestreos.
El muestreo introduce variabilidad en los estimadores. Esta fuente de variabilidad se denomina
variabilidad de muestreo o variabilidad debido al muestreo.

Distribución del promedio de muestra, x


Considerando el promedio de una muestra de tamaño n:

tomada de una población de media μ y varianza σ2, entonces X es un valor de una variable aleatoria
cuya distribución tiene media μ. Para muestras de población infinitas, la varianza de esta
distribución es σ2/n, o lo que es lo mismo:

esto es, el promedio de muestra x es el mismo que el de la distribución. Sin embargo, la varianza
es la misma de la distribución, pero dividida por el tamaño de la muestra. El promedio de muestra
x es el más común estimador del promedio de población μ, ambos valores, (x y μ) diferirán entre
si cada vez que se evalúe un promedio de muestra.

15
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

El hecho de que VAR(x) = σ2/n muestra que la variabilidad del


estimador x alrededor del promedio μ tiende a cero según que el número de observaciones en la
muestra crezcan. Hacia el límite, cuanto más grande sea n, el promedio de la población μ quedará
determinado con mayor precisión.
Ahora bien, si X es un valor de una variable aleatoria de tamaño n, cuya distribución tiene media
μ y varianza σ2 entonces:

Es el valor de una variable aleatoria cuya función de distribución se aproxima a la de la distribución


normal centrada y estandarizada (tipificada); es decir, X será N(0, 1). Esto implica que la
combinación lineal de variables aleatorias es también normalmente distribuida. Por lo tanto, si se
toma una muestra de una distribución normal con promedio μ y varianza σ2 entonces la
distribución de X es:

y la distribución de Z es N(0, 1)
Intervalos de confianza para promedios
El intervalo de confianza es el conjunto de valores obtenido a partir de los datos muestrales en el
que hay una determinada probabilidad de que se encuentre el parámetro poblacional. Esta
probabilidad se le conoce como el nivel de confianza.

Por ejemplo, en una encuesta se encontró que en una determinada región el ingreso mensual
promedio de los trabajadores de la construcción es de 2.5 SMLM. Un intervalo podrá ser que el
salario promedio global este entre 2 y 3 SMLM.

16
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

La información que se tiene acerca de la forma de la distribución de


muestral de la media muestral, es decir de la distribución muestral de X, permite localizar un
intervalo que tenga una determinada probabilidad de contener a la media poblacional. (Vargas
barrera, 2008)

Si el tamaño de la muestra es razonablemente grande, el teorema del límite central permite


establecer lo siguiente:

 El 95% de las medias muestrales obtenidas de una población se encuentra a no más de 1.96
desviaciones estándar de la media poblacional.
 El 99% de las medias poblacionales sse encuentran a no más de 2.58 desviaciones estándar
de la media poblacional.
Cuando el tamaño de la muestra es grande o la variable tiene distribución normal, el
intervalo de confianza está dado por:

𝜎 𝜎
𝑋̅ − 𝑍𝛼 ∗ ≤ 𝜇 ≥ 𝑋̅ + 𝑍𝛼 ∗
2 √𝑛 2 √𝑛

𝜎 𝜎
P⟮𝑋̅ − 𝑍𝛼 ∗ ≤ 𝜇 ≥ 𝑋̅ + 𝑍𝛼 ∗ ⟯= 1-𝛼
2 √𝑛 2 √𝑛

Fig. 6: Intervalos de confianza para promedios

17
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Ejemplo. En una encuesta aplicada a 1600 colombianos se


encontró que en promedio ven 14.6 horas de televisión a la semana con una desviación estándar
de 5 horas. Realice una estimación de la variable para un nivel de confianza de 80%.

N=1600; 𝑋̅ = 14.6 ℎ𝑜𝑟𝑎𝑠; σ=5 horas; 1- 𝛼 = 0.80; 𝑍0.80 = 1.28

5 5
P⟮14.6 − 1.28 ∗ ≤ 𝜇 ≥ 14.6 + 1.28 ∗ ⟯= 0.80
√1600 √1600

P⟮14.4 ≤ 𝜇 ≥ 14.76⟯= 0.80

Los colombianos ven televisión en promedio entre 14.4 y 14.76 horas con un nivel de confianza
del 80%.

Intervalos de confianza para 𝝁1 - 𝝁2


Sean los promedios de muestra 𝑋̅ y𝑌̅ estimadores de μ1 y μ2 con varianzas 𝜎1 2 y
𝜎2 2 respectivamente. Si las muestras son tomadas de distribuciones normales, las distribuciones
respectivas para esos promedios serán:

𝜎1 2 𝜎2 2
N (𝜇1 , ); N (𝜇2 , )
𝑛1 𝑛2

El estimador apropiado para μ1 - μ2 es la diferencia de los promedios de muestra 𝑋̅ y 𝑌̅ . Se debe


asumir que se trata de dos muestras aleatorias seleccionadas independientemente. Por
consiguiente:

𝜎1 2 𝜎2 2
Var (𝑋̅- ̅𝑌) = Var (𝑋̅) + Var (𝑌̅) = 𝑛1
+ 𝑛2

Por lo que la distribución de muestra de 𝑋̅ - 𝑌̅ es:

𝜎1 2 𝜎2 2
N (𝜇1 - 𝜇2 , + )
𝑛1 𝑛2

Entonces:

𝜎 2 𝜎2 2 𝜎12 𝜎2 2
(𝑋̅- ̅𝑌-𝑍𝛼 √ 1 + , 𝑋̅- ̅𝑌+𝑍𝛼 √ + )
2 𝑛1 𝑛2 2 𝑛1 𝑛2

18
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Inferencias con pequeñas muestras y varianzas desconocidas


Si n es grande, se puede usar la teoría cuando no se conoce σ y puede ser reemplazada por s. Para
muestras de tamaño n < 30, llamadas muestras pequeñas, esta aproximación no es muy buena y va
siendo tanto peor a medida que n disminuya; por lo tanto, no se puede tener mucha confianza en
“s” como aproximación de σ.

Cuando ocurre así, se puede probar el siguiente teorema:

"Si 𝑋̅ es la media de una muestra aleatoria de tamaño n tomada de una población normal con la
media μ y varianza σ2, entonces:

𝑋̅−𝜇
t= 𝑠
√𝑛

Es el valor de una variable aleatoria que tiene una distribución t-Student de parámetro r = n - 1
grados de libertad.

En este caso no se requiere conocer σ y se debe trabajar con una población normal.

Propiedades de la distribución t

 Cada curva t tiene forma de campana con centro en 0.


 Es simétricas con respecto a la media
 Cada curva t está más dispersa que la curva normal estándar.
 la probabilidad de las colas es mayor que en la distribución normal.
 A medida que r aumenta, la dispersión de la curva t correspondiente dieminuye.
 A medida que r→ ∝, la secuencia de curvas t se aproxima a la curva normal estándar.

19
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

fig. 7: Funciones de densidad de probabilidad para varias distribuciones t.

𝑐
f(t)= 𝑡 2 𝑟+1
; −∞ < 𝑡 < +∞
(1+ ) 2
𝑟

Donde c es un valor tal que el área debajo de f(t) = 1. Se comprueba que E (t) = 0 y Var (t) = r/r-2
para r>2. La varianza de t es mayor de 1 pero se aproxima a ese valor cuando n →∝. Esta densidad
se parece mucho a la distribución N (0, 1), especialmente para valores grandes de r.

P [T > t (α; r)] = α

Ya que la distribución de f (t) es simétrica alrededor de cero, se tiene:

P [T< -t (α; r)] = P [T > t(α; r)]

DISTRIBUCIÓN 𝑿𝟐 , (CHI CUADRADO)


Al igual que el promedio es una variable aleatoria, la varianza es también una variable aleatoria
con una distribución muestral. La distribución muestral teórica de s2 se encuentra ligada a una
distribución gamma de parámetros α = r/2 y β = 2 llamada distribución Chi Cuadrado (𝑋 2 ). Como
𝑆 2 no puede ser negativa, es de esperar una distribución muestral que no sea normal. Se tiene:

"Si 𝑠 2 es la varianza de una muestra aleatoria de tamaño n tomada de una población normal, que
tiene varianza σ2, entonces:

20
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

2
(𝑛 − 1)𝑠 2
𝑋 =
𝜎2

Es el valor de una variable aleatoria que tiene distribución 𝑋 2 con parámetro r = n - 1 llamado
grados de libertad"

En la Tabla respectiva se anotan valores seleccionados de 𝑋 2 (α; r), donde el área bajo la curva
de la distribución χ2 (tomada a la derecha) es igual a α.

Intervalos de confianza para la varianza


Se trata de estimar dentro de unos determinados límites de confianza la varianza y desviación
estándar de la población, σ, a partir de la desviación estándar muestral, s.

Si 𝑆 2 es la varianza muestral de una muestra aleatoria de n observaciones tomadas de una


distribución normal con varianza desconocida σ 2 , entonces un intervalo de confianza 100(1-α)
por ciento para σ 2 es.

2 2
Por ejemplo,si 𝑋0.025 𝑋0.975 son los valores de 𝑋 2 (llamados valores críticos), para que el 2.5%
del área se encuentre en cada cola de la distribución, entonces el intervalo de confianza al 95%
para la varianza es:

y para la desviación estándar:

21
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

2. PRUEBAS DE HIPOTESIS ESTADISTICA


La recolección y análisis de datos son componentes muy importantes de los métodos científicos de
investigación. Los datos se utilizan para confirmar o rechazar teorías e hipótesis, y estas deben ser
confirmadas con datos provenientes de experimentos cuidadosamente planificados. Si los datos
contradicen las teorías formuladas, se deberá buscar adecuadas explicaciones o nuevas teorías.
Estas ideas introductoras ilustran el hecho de que los datos obtenidos a partir de muestras se
utilizan para decidir entre hipótesis elaboradas.
La inferencia estadística estudia los métodos que señalan como emplear datos obtenidos de
muestras aleatorias para inducir, por generalización, características a las poblaciones de las que se
ha obtenido las muestras. Más recientemente, los métodos de inferencia estadística se han
unificado bajo los conceptos generales de la teoría de la decisión, es decir, bajo los conceptos
generales de la manera de tomar
decisiones en condiciones de incertidumbre.
Las pruebas de hipótesis estadística se encargan de analizar procedimientos para confirmar o
rechazar hipótesis acerca de la distribución de variables aleatorias. Las hipótesis están confinadas
a términos de parámetros de población; esto es, hecha una determinada afirmación sobre una
población, deseamos saber
si los resultados de una muestra contradicen o no tal afirmación. Por ejemplo, dos hipótesis pueden
especificar que el promedio de la tensión de ruptura de cierta aleación es mayor (no es mayor) que
2000 lb.; o que la variabilidad de un proceso A es mayor (no es mayor) que aquella de un proceso
B; etc.
Así como ocurrió con la construcción de los estimadores por intervalos de confianza, las pruebas
de hipótesis también se apoyan en la distribución de probabilidad de los estimadores. De esta
manera, las distribuciones de probabilidad de la media muestral y la varianza muestral, serán
utilizadas para las respectivas pruebas sobre la media y la varianza poblacional.

22
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Ejemplo Ilustrativo.
Supóngase que se quiere determinar si ciertos cambios en un proceso productivo reducen el tiempo
que le toma a un obrero completar una tarea de ensamblaje de un producto. Supóngase que en
condiciones normales, en promedio, un trabajador emplea 30 minutos en completar la tarea de
ensamblaje. También se sabe que ese tiempo promedio presenta variación; esto es, el tiempo de
ensamblaje es una variable
aleatoria que se puede representar por X. Mas aún, existe suficiente información para asegurar que
X esta normalmente distribuida y tiene promedio m = 30 y una desviación estándar s = 1. Esto
implica que aproximadamente 95% de los tiempos de ensamblaje se encuentran entre 28 y 32
minutos.
En este ejemplo se va a evaluar una hipótesis relacionada al parámetro m, con el supuesto de que
s = 1 aún después de los cambios efectuados. Luego de concretados los cambios en el proceso de
ensamblaje, se plantean dos hipótesis:
- La hipótesis del no cambio (hipótesis nula), que establece que m sigue siendo 30 minutos; y
- La hipótesis alternativa que sugiere que m < 30 minutos:
Para determinar la validez de una de estas hipótesis se procede a la recolección de información.
Primeramente, se elige aleatoriamente a un solo trabajador para evaluar el efecto de los cambios
realizados. Se observa que este trabajador emplea 29 minutos en la tarea normal de ensamblaje.
Con este dato, y teniendo en consideración que X proviene de N(30, 1) se evalúa:

es decir, hay aproximadamente 16 % de probabilidades de que el tiempo de ensamblaje sea 29


minutos, siendo que X proviene de N(30, 1). Esto indica de que un tiempo de 29 min. no es un
evento muy raro en esa distribución. Continuando la toma de datos se evalúa n = 5 trabajadores,
para los cuales X = 29min.
Luego se toma n = 25 trabajadores que presentan X = 29min. Reiterando que X proviene de N(30,
1), la probabilidad de que X = 29min. para 25 trabajadores es:

23
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Esto hace que para una N(30, 1), con n = 25, X=29min. es un evento extremadamente improbable.
Ciertamente, esto quita consistencia a la hipótesis de que m sigue siendo 30 minutos. Por ello se
puede afirmar que, efectivamente, el tiempo de ensamblaje de cada trabajador se ha reducido.
En términos técnicos, se dice que: los cambios efectuados en el proceso productivo originan una
diferencia estadísticamente significativa en el tiempo de ensamblaje; o bien, que la diferencia en
el tiempo, 30 - 29 = 1 es estadísticamente significativa.
Es necesario aclarar que una diferencia estadísticamente significativa no siempre es de utilidad
práctica; ya que por ejemplo, la reducción de un minuto en el promedio m no podría representar
ahorros importantes en el proceso productivo. La decisión final de adoptar los cambios concierne
a una evaluación de estructura de costos, que estas técnicas estadísticas no pueden resolver.

DEFINICIÓN DE HIPÓTESIS
Para llegar a tomar decisiones, conviene hacer determinados supuestos o conjeturas acerca de las
poblaciones que se estudian. Tales supuestos, que pueden ser ciertos ó no, se denominan hipótesis
estadísticas. Por ejemplo, si se quiere decidir si un procedimiento es mejor que otro, se formulan
las hipótesis:
- No hay diferencia estadística entre los dos procesos; y
- Si existe diferencia estadística entre los dos procesos.
La primera se define como la hipótesis del "no cambio" o “hipótesis nula” y se simboliza por Ho.
La segunda se denomina “hipótesis alternativa” y se simboliza por H1.
Por ejemplo, una empresa produce circuitos impresos con probabilidad histórica de producto
fallado igual al 3% (P = 0.03). Un ingeniero de producción sugiere cambios en el proceso y asegura
que tales cambios causarán una reducción de la probabilidad de falla; es decir, asegura que P <
0.03. Por lo tanto, se deberá evaluar:
Ho : P = 0.03 (Hipótesis Nula)
H1 : P < 0.03 (Hipótesis Alternativa)

24
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

NIVEL DE SIGNIFICACIÓN
Se acostumbra a fijar niveles de significación de 0.1, 0.05 y 0.01, aunque se puede fijar otros
valores. Si por ejemplo, se fija un nivel de significación del 0.05 (5%) al diseño de un ensayo de
hipótesis, entonces hay aproximadamente 5 ocasiones en 100 en que se rechazaría una hipótesis
cuando debería ser aceptada. En otras palabras, se estaría 95% seguro de que se toma la decisión
adecuada.

HIPÓTESIS REFERENTE A LA MEDIA


Se trata de contrastar la hipótesis de la media, X, de una población igual a un valor determinando
frente a otra alternativa conveniente. Es decir, hay que contrastar:

Para efectuar una prueba con un nivel de significación a se escoge una región crítica (es decir una
región de rechazo de Ho) para X < c, tal que:

25
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Se denomina el estadístico estandarizado o tipificado. Si este estadístico es un valor menor de -


z(a), se rechaza Ho y se acepta H1. Por el contrario, si Z es mayor que -z(a) ,se dice que no hay
suficiente evidencia para rechazar H1, por lo que se acepta Ho.
En general, las regiones críticas para contrastar Ho: u = uo se pueden expresar como se indica en
la Tabla 1:
Tabla 1: Regiones críticas para contrastar Ho : u = uo

HIPÓTESIS REFERENTE A LA MEDIA: COLA INFERIOR


Para entender la correcta orientación de la región crítica, la Figura 4.1 es muy útil para el caso de:
Ho : u = uo y;
H1 : u < uo.

En la Figura 4.1,”c” representa el valor crítico. La región a la derecha de este punto es la región
de aceptación de Ho y la región a la izquierda de “c” es la de aceptación de H1 . El punto c es tal

26
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

que la probabilidad de rechazar Ho es α. El gráfico muestra que el


valor crítico “c” debe ser menor que uo y es determinado por:

El valor de “α” depende de cada aplicación. Un valor muy frecuentemente utilizado es α = 0.05.
si altos costos están asociados a la evaluación, conviene utilizar valores más pequeños de α. Sin
embargo, para valores pequeños de a implica un valor alto de z(a) y la prueba se torna muy
conservadora, tal que se rechaza Ho solo en casos muy extremos.
Otra forma de conducir las pruebas de hipótesis es utilizando el concepto de valor de probabilidad
o el valor 'p'. Por ejemplo, en el caso de disminución de tiempos de ensamblaje de un producto de
n = 34, si X=29.68 para N(30, 1), se puede obtener un valor p, tal que:

En este caso se rechaza Ho si el valor de p es menor que α = 0.05 (es decir para un nivel de
significación de 0.05). Esto se ilustra en la Figura 4.2.

27
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

HIPÓTESIS REFERENTE A LA MEDIA: COLA SUPERIOR


Si ahora se trata de decidir si un procedimiento determinado ha producido un incremento en se
está en la circunstancia de probar Ho : u = uo versus H1 : u > u o . En este caso, se rechaza Ho
en favor de H1
cuando X > c, como se ilustra en la Figura 8.

Fig. 8: Gráfica de la prueba Ho : µ = µo versus H1 : µ > µo

En la Figura 8. Se quiere probar a un nivel de significación α, se requiere que una probabilidad de


falso rechazo de Ho sea a, es decir:

28
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

HIPOTESIS REFERENTE A LA MEDIA: DOS COLAS


Las pruebas Ho : o versus H1 : o y Ho : o versus H1 : o son llamadas
pruebas a un solo nivel o de una cola. Hay ocasiones en que pruebas a dos lados son apropiadas,
de modo que se contrasta:
Ho : o versus H1 : o.

HIPÓTESIS REFERENTE A MEDIAS DE MUESTRAS PEQUEÑAS

Los anteriores conceptos asumen que se tiene una distribución N (0,1) con 𝜎 2 conocida. Si ahora
la varianza 𝜎 2 es estimada por la varianza de muestra 𝜎 2 , la distribución de muestra:

𝑥̅ − 𝜇
𝑡= 𝑠
√𝑛

Es una distribución t con n-1 = r grados de libertad y los valores críticos 𝑧(𝛼) deben ser
reemplazados por t(a; n-1). Si acaso n es grande (por lo menos 30) se puede utilizar la Tabla
normal.

29
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Las regiones críticas resultantes se muestran en la Tabla de t-Student, en donde por ejemplo
𝑡 (𝛼 ; 𝑛 − 1) es el área a la derecha bajo la curva de distribución 𝑡 con 𝑛 − 1 grados de libertad y
es igual a 𝛼.

Figura. Ilustración gráfica de la prueba 𝐻𝑜 ∶ 𝜇 = 𝜇0 versus 𝐻1 ∶ 𝜇 > 𝜇0 para muestras


pequeñas.

Tabla 4.2: Regiones críticas para contrastar 𝐻𝑜 ∶ 𝜇 = 𝜇0 .

HIPÓTESIS REFERENTE A DOS MEDIAS

Una de las pruebas más importante que se hace en estadística es aquellas para las que se compara
dos métodos diferentes. Por ejemplo, si se han considerado dos tipos de acero para ser usado en
ciertas vigas de estructura metálica, se tomarán muestras y decidirá cuál es mejor al comparar sus
resistencias medias.

Generalmente se compara las medias de dos distribuciones, de lo que resulta que se establecen las
hipótesis nula y alternativa:

30
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

𝐻𝑜 ∶ 𝜇 = 𝜇0 Versus 𝐻1 ∶ 𝜇 < 𝜇0 , ó 𝐻1 ∶ 𝜇 > 𝜇0 ó 𝐻1 ∶ 𝜇 ≠ 𝜇0 .

COMPARACIÓN DE DOS MUESTRAS INDEPENDIENTES GRANDES

Consideremos dos muestras aleatorias cada una con una distribución independiente y con
promedios 𝜇1 y 𝜇2 , varianzas 𝜎12 𝑦 𝜎22 respectivamente y de tamaño 𝑛 1 y 𝑛 2, denotadas
por: 𝑥1 , 𝑥2 , … , 𝑥𝑛1 y 𝑦1 , 𝑦2 , … , 𝑦𝑛2 y que son aproximadamente:

𝑁(𝜇1 , 𝜎12 /𝑛1 ) 𝑦 𝑁(𝜇2 , 𝜎22 /𝑛2 )

Se asume que 𝜎12 𝑦 𝜎22 son conocidas.

Bajo la hipótesis nula 𝐻𝑜 ∶ 𝜇 = 𝜇0 ó que 𝜇 − 𝜇0 = 0, la variable aleatoria

𝑥−𝑦
𝑍=
𝜎2 𝜎2
√ 1 + 2
𝑛1 𝑛2

Es 𝑁(0,1). Se rechaza 𝐻0 y se acepta 𝐻1 cuando 𝑍 ≥ 𝑧(𝛼) a una prueba de nivel de significación


𝛼.

COMPARACIÓN CON PEQUEÑAS MUESTRAS

Si las varianzas 𝜎12 𝑦 𝜎22 son desconocidas, estas pueden ser reemplazadas por las varianzas de
muestra 𝑆12 𝑦 𝑆22 . En este caso se toma en consideración los grados de libertad 𝑟1 , = 𝑛1 − 1 𝑦 𝑟2 , =
𝑛2 − 1, y bajo la hipótesis nula 𝐻𝑜 ∶ 𝜇 = 𝜇0 , la variable aleatoria:

𝑥−𝑦
𝑇=
(𝑛 − 1)𝑆𝑥2 + (𝑛2 − 1)𝑆𝑦2 1 1
√ 1 (𝑛1 𝑛2 )
+
𝑛1 + 𝑛2 − 2

31
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Tiene una distribución t-Student 𝑡( 𝛼; 𝑛1 + 𝑛2 − 2 ). Si se rechaza 𝐻𝑜 ∶ 𝜇 = 𝜇0 y se acepta


𝐻1 ∶ 𝜇 < 𝜇0 , cuando 𝑇 ≥ +𝑡 ( 𝛼; 𝑛1 + 𝑛2 − 2)) se obtiene una prueba con nivel de
significación 𝛼. Similarmente, en una prueba 𝐻𝑜 ∶ 𝜇 = 𝜇0 versus 𝐻1 ∶ 𝜇 < 𝜇0 , se acepta 𝐻1
cuando 𝑇 ≤ −𝑡 ( 𝛼; 𝑛1 + 𝑛2 − 2). En una prueba 𝐻𝑜 ∶ 𝜇 = 𝜇0 versus 𝐻1 ∶ 𝜇 < 𝜇0 , se acepta
𝐻1 cuando |𝑇| ≥ 𝑡 ( 𝛼; 𝑛1 + 𝑛2 − 2).

PRUEBAS DE COMPARACIÓN POR PARES

Hasta aquí se ha asumido que las observaciones provienen de dos grupos independientes entre sí.
En la mayoría de aplicaciones esto es válido, pero hay circunstancias en las que se debe asumir
dependencia entre las observaciones. Por ejemplo, considérese una máquina que mide la dureza
de un metal por la profundidad de la marca hecha por la punta de la máquina en la probeta a
evaluar. Esta máquina dispone de dos puntas, diferentes la una a la otra, aun cuando la variabilidad
de las dos parece ser la misma.

Si se desea evaluar si existe diferencia en las medidas de dureza de ambas puntas, se puede optar
por ejemplo en tomar 20 probetas de metal y aleatoriamente escoger 10 probetas para cada una de
las puntas.

Este sencillo y lógico procedimiento puede tener desventajas. Supóngase que las 20 probetas
fueron obtenidas de distintas existencias del mismo material, que podrían tener algunas diferencias
físicas entre sí, (por ejemplo, diferente dureza entre los distintos lotes). Esto contribuiría a
incrementar el error experimental, variabilidad y haría más difícil detectar las diferencias entre
ambas puntas.

Para salvar esta posibilidad de obtener una conclusión errónea, se puede optar por otro
procedimiento. Si cada probeta es lo suficientemente grande, se puede utilizar cada una de las
probetas para medir la dureza con las dos puntas. El orden y ubicación de medición se deberá

32
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

ejecutar aleatoriamente. En este caso las mediciones están mutuamente relacionadas y se dice que
hay dependencia entre las observaciones.

En tales situaciones, se analiza las diferencias 𝑊𝑖 = 𝑋𝑖 − 𝑌𝑖 . Estas diferencias:

𝑊1 = 𝑋1 − 𝑌1 ; 𝑊2 = 𝑋2 − 𝑌2 ; … ; 𝑊𝑛 = 𝑋𝑛 − 𝑌𝑛 . . . son muestras aleatorias de tamaño 𝑛


provenientes de una distribución con promedio 𝜇1 − 𝜇0 y varianza 𝜎𝑤2 .

Las variables 𝑊1 , 𝑊2 , … , 𝑊𝑛 son independientes (provienen de diferentes objetos). Asumiendo que


W es normal, se puede utilizar la prueba estadística:

̅
𝑊
𝑡=
𝑆𝑤 /√𝑛

Donde 𝑆𝑤 es la desviación estándar de las diferencias, W. Una prueba de hipótesis por ejemplo
̅ /(𝑆𝑤 /√𝑛) ≥ 𝑡 ( 𝛼; 𝑛 − 1). Si n es
puede ser 𝐻𝑜 ∶ 𝜇 = 𝜇0 versus 𝐻1 ∶ 𝜇 < 𝜇0 . Se acepta 𝑊
suficientemente grande, se puede utilizar la distribución normal.

PRUEBA PARA 𝝈𝟐 = 𝝈𝟐𝟎

Si se desea probar la hipótesis de que la varianza de una población normal 𝜎 2 es igual a un valor
específico, por ejemplo 𝜎02 . Sea 𝑥1 , 𝑥2 , … , 𝑥𝑛 una muestra aleatoria de n observaciones tomadas de
esta población. Para probar:

𝐻𝑜 ∶ 𝜎 2 = 𝜎02

𝐻𝑜 ∶ 𝜎 2 ≠ 𝜎02

Se utiliza el estadístico de prueba:

(𝑛 − 1)𝑆 2
𝑋02 =
𝜎02

33
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Donde 𝑆 2 es la varianza muestral. Ahora si 𝐻𝑜 es verdadera, entonces el estadístico de prueba 𝑋02


sigue una distribución chi cuadrada con 𝑛 − 1 grados de libertad. Por consiguiente, se calcula el
valor de la estadística de prueba 𝑋02 y la hipótesis 𝐻𝑜 ∶ 𝜎 2 = 𝜎02 debe rechazarse si:

𝑋02 > 𝑋𝛼2,𝑛−1 𝑜 𝑠𝑖 𝑋02 < 𝑋𝛼2,𝑛−1


2 2

Donde 𝑋𝛼2,𝑛−1 y 𝑋𝛼2,𝑛−1 son los puntos que corresponden a los porcentajes 100𝛼/2 inferior y
2 2

superior a la distribución chi cuadrada con 𝑛 − 1 grados de libertad respectivamente.

El mismo estadístico se utiliza para las hipótesis alternativas unilaterales. Para la hipótesis
unilateral:

𝐻𝑜 ∶ 𝜎 2 = 𝜎02

𝐻𝑜 ∶ 𝜎 2 ≠ 𝜎02

Se rechaza 𝐻𝑜 si 𝑋02 > 𝑋𝛼2,𝑛−1


2

Para la otra hipótesis unilateral:

𝐻𝑜 ∶ 𝜎 2 = 𝜎02

𝐻1 ∶ 𝜎 2 < 𝜎02

2
Se rechaza 𝐻𝑜 si 𝑋02 > 𝑋1−𝛼 ,𝑛−1
2

PRUEBA PARA 𝝈𝟐𝟏 = 𝝈𝟐𝟐

Supóngase que se tiene interés en dos poblaciones normales independientes, donde las medias y
varianzas de la población, 𝜇1 , 𝜎12 , 𝜇2 𝑦, 𝜎22 son desconocidos. Se desea probar las hipótesis sobre
la igualdad de las dos varianzas 𝐻𝑜 ∶ 𝜎12 = 𝜎22 por ejemplo. Si se tienen dos muestras aleatorias

34
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

de tamaño 𝑛1 tomada de la población 1, y otra de tamaño 𝑛2 proveniente de la población 2 y sean


𝑆12 𝑦 𝑆22 las respectivas varianzas muestrales. Para probar las alternativas:

𝐻𝑜 ∶ 𝜎12 = 𝜎22

𝐻𝑜 ∶ 𝜎12 > 𝜎22

Se utiliza el estadístico:

𝑆12
𝐹=
𝑆22

Tiene una distribución 𝐹 con 𝑛 − 1 grados de libertad en el numerador y 𝑛2 − 1 grados de libertad


en el denominador

𝑆2
Se rechaza 𝐻𝑜 ∶ 𝜎12 = 𝜎22 y se acepta 𝐻𝑜 ∶ 𝜎12 > 𝜎22 si 𝑆𝑥2 ≥ 𝐹(𝛼, 𝑛1 − 1, 𝑛2 − 1)
𝑦

35
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

COMPARACIÓN DE MUESTRAS CUANDO 𝝈𝟐𝟏 ≠ 𝝈𝟐𝟐

Hasta ahora las inferencias referentes a la diferencia entre medias de dos poblaciones
se han presentado bajo el supuesto de que las varianzas poblacionales son conocidas o
desconocidas, pero iguales. Si las varianzas no son iguales, al usar los estimadores
insesgados 𝑆12 𝑦 𝑆22 en vez de 𝜕12 𝑦 𝜕22 la cantidad:

𝑋̅1 − 𝑋̅2
𝑡=
𝑆12 𝑆22

𝑛1 + 𝑛2

No sigue la distribución t-student con 𝑛1 + 𝑛2 – 2 grados de libertad. Pero si se estima


los grados de libertad por la fórmula:

Donde “r” corresponde a los grados de libertad. Entonces, la expresión

𝑋̅1 − 𝑋̅2
𝑡∗ =
𝑆2 𝑆2
√ 1+ 2
𝑛1 𝑛2

Se aproxima a la distribución t-student con r grados de libertad calculados en la anterior


ecuación. Si el valor de r no es un valor entero, se le aproxima al entero más cercano.
Con esto, las pruebas de hipótesis se ejecutan de igual manera a lo descrito para
muestras pequeñas de varianza desconocida.

36
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

Ejemplo:

Para probar la efectividad de dos pegamentos se utilizan 41 moldes pegados con cada
uno de esos pegamentos. Se mide la fuerza para romper los moldes pegados con los
siguientes resultados:

Probar la hipótesis 𝐻𝑜: 𝜇1 = 𝜇2 con a = 0.05

37
UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
Escuela Académico Profesional Ingeniería Geológica

CONCLUSIONES

BIBLIOGRAFÍA

 Becerra, M. (s.f.). Matemáticas básicas. Estadística descriptiva. México.


 Vargas barrera, R. (2008). Estadistica II. Bogotá: Escuela Superior De Administración Pública
Rafael vargas barrera.

38

También podría gustarte