Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La estadstica es la disciplina que nos proporciona una metodologa para recoger, organizar,
resumir, analizar datos y hacer inferencias a partir de ellas.
Puede deducirse de la definicin que hay dos ramas claramente diferenciadas dentro de la
estadstica: La Estadstica Descriptiva y La Inferencia Estadstica que es el punto a tratar en el
presente trabajo.
La inferencia Estadstica tiene como funcin inferir las caractersticas de un colectivo a partir
de un subconjunto de ste.
Referente al contraste de hiptesis, sabemos que un problema es investigable cuando existen
dos o ms soluciones alternativas y tenemos dudas acerca de cual de ellas es la mejor. Esta
situacin permite formular una o ms hiptesis de trabajo, ya que cada una de ellas destaca la
conveniencia de una de las soluciones sobre las dems. Si nuestro propsito es comprobar
una teora ella misma ser la hiptesis del trabajo, pero es importante destacar que al formular
dicha o dichas hiptesis no significa que ya est resuelto el problema, al contrario, que
nuestra duda nos impulsa a comprobar la verdad o falsedad de cada una de ellas.
La decisin final partir de las decisiones previas de aceptar o rechazar las hiptesis de
trabajo.
CAPITULO I
Contraste de Hiptesis
Etapas Bsicas en Pruebas de Hiptesis.
Al realizar pruebas de hiptesis, se parte de un valor supuesto (hipottico) en parmetro
poblacional. Despus de recolectar una muestra aleatoria, se compara la estadstica muestral,
as como la media (x), con el parmetro hipottico, se compara con una supuesta media
poblacional (). Despus se acepta o se rechaza el valor hipottico, segn proceda. Se rechaza
el valor hipottico slo si el resultado muestral resulta muy poco probable cuando la hiptesis
es cierta.
Etapa 1.- Planear la hiptesis nula y la hiptesis alternativa. La hiptesis nula (H0) es el valor
hipottico del parmetro que se compra con el resultado muestral resulta muy poco probable
cuando la hiptesis es cierta.
Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de significancia del
5%, entonces se rechaza la hiptesis nula solamente si el resultado muestral es tan diferente
del valor hipottico que una diferencia de esa magnitud o mayor, pudiera ocurrir
aleatoriamente con una probabilidad de 1.05 o menos.
Etapa 3.- Elegir la estadstica de prueba. La estadstica de prueba puede ser la estadstica
muestral (el estimador no segado del parmetro que se prueba) o una versin transformada
de esa estadstica muestral. Por ejemplo, para probar el valor hipottico de una media
poblacional, se toma la media de una muestra aleatoria de esa distribucin normal, entonces
es comn que se transforme la media en un valor z el cual, a su vez, sirve como estadstica
de prueba.
La hiptesis nula
es verdadera
Decisiones Posibles
Aceptar la Hiptesis
Nula
Rechazar la Hiptesis
Nula
Se acepta
correctamente
Error tipo II
Error tipo I
Se rechaza
correctamente
La
hipte
sis
nula
es
falsa
contrastar si un proceso es mejor o peor que el otro) tales contrastes se llaman unilaterales, o
de un extremo. En tales situaciones, la regin critica es una regin situada a un lado de la
distribucin, con rea igual al nivel de significacin.
La siguiente tabla de valores crticos de z para contraste de unos o dos extremos en varios
niveles de significacin.
Nivel de
significacin
0.10
0.05
0.01
0.005
0.02
Valores crticos de
z para Test
Unilaterales
-1.28 o
1.28
-1.645 o
1.645
-2.33 o
2.33
-2.58 o
2.58
-2.88 o 2.88
Valores Crticos de
z para Test
Bilaterales
- 1.645 y
1.645
- 1.96 y
1.96
-2.58 y
2.58
-2.81 y
2.81
-3.08 y 3.08
Donde puede procederse a probar cualquier diferencia supuesta (1 - 2)0. Sin embargo la
hiptesis nula que generalmente se prueba consiste en que las dos muestras se obtienen de
poblaciones con medias iguales. En este caso (1 - 2)0 = 0, y las formulas anteriores se
vuelven ms simples:
Una media Muestral y una Media Poblacional.
Una distribucin poblacional representa la distribucin de valores de una poblacin y una
distribucin muestral representa la distribucin de los valores de una muestra. En contraste
con las distribuciones de mediciones individuales, una distribucin muestral es una
distribucin de probabilidad que se aplica a los valores posibles de una estadstica muestral.
As, la distribucin muestral de la media es la distribucin de probabilidad de los valores
posibles de la media muestral con base en un determinado tamao de muestra.
Para cualquier tamao de muestra dado n, tomado de una poblacin con media , los valores
de la media muestral varan de una muestra a otra. Esta variabilidad sirve de base para la
distribucin muestral. La distribucin muestral de la media se describe determinando el valor
esperado E () o media, de la distribucin y la desviacin estndar de la distribucin de las
medias, . Como esta desviacin estndar indica la precisin de la media muestral como
estimador puntual, por lo general se le denomina error estndar de la media. En general, se
define el valor esperado de la media y el error estndar de la media de la siguiente manera:
E
Ejemplo: Suponga que la media de una poblacin muy grande es = 50.0 y que la desviacin
estndar es = 12.0. Se determina la poblacin muestral de las medias para una muestra de
tamao n = 36, en trminos del valor esperado y del error estndar de la distribucin de la
siguiente manera.
E
Cuando se muestra a partir de una poblacin finita, se debe incluir un factor de correccin por
poblacin finita en la frmula para el error estndar de la media. Como regla general, la
correccin es despreciable y puede omitirse cuando n < 0.05 N, es decir, cuando el tamao de
la muestra es menos del 5% del tamao de la poblacin. Muchos textos y programas de
computacin no incluyen esta correccin porque suponen que la poblacin siempre es muy
grande, o quiz de tamao infinito. La frmula para el error estndar de le media, incluyendo
el factor de correccin por la poblacin finita, es:
Si no se conoce la desviacin estndar de la poblacin, puede estimarse el error estndar de
la media utilizando la desviacin estndar muestral como estimador de la desviacin estndar
de la poblacin. Para diferenciar este error estndar del que se basa en una o conocida, se le
designa mediante el smbolo S (o mediante en algunos textos). La frmula del error estndar
estimado de la media es:
La frmula del error estndar estimado de la media, incluyendo el factor de correccin por
poblacin finita es:
Proposiciones Utilizando la definicin Chi - Cuadrado (X2).
Una media de la discrepancia existente entre las frecuentes observadas y esperadas viene
proporcionada por el estadstico X2 dado por:
Donde si la frecuencia total es N,
Una expresin equivalente a la formula (1) :
Si X2 = 0 Las frecuencias observadas y tericas coinciden completamente, mientras que si
X2 > 0, no coinciden exactamente a valores ms grandes de X2, mayor discrepancia entre las
frecuencias observadas y esperadas.
La distribucin muestral de X2 se aproxima muy bien por la distribucin Chi - Cuadrada.
Distribucin Chi - Cuadrado para la Bondad de Ajustes:
El Test Chi - Cuadrado puede utilizarse para determinar la calidad del ajuste mediante
distribuciones tericas (como la distribucin normal o la binomial) de distribucin empricas (o
sea las obtenidas de los datos de la muestra).
Distribucin Chi - Cuadrado y Tablas de Contingencia.
Suceso
E1
E2
E3
...
Ek
Frecuencia
Observada
01
02
03
...
0k
Frecuencia Esperada e1
e2
e3
...
ek
En esta tabla las frecuencias observadas ocupan una sola fila y la llamamos tabla de
calcificacin de entrada nica como el nmero de columnas es K tambin se llama una tablas
1 x K (Leido 1<<1 por k>>).
Extendiendo estas ideas, podemos llegar a tablas de doble entrada tablas h x k, en las que
las frecuencias observadas ocupan h filas y k columnas tales tablas se suelen llamar tablas de
contingencia.
Correspondiendo a cada frecuencia observada en una tabla de contingencia h x k, hay una
frecuencia esperada o terica que se calcula sujeta a ciertas hiptesis de acuerdo con las
leyes de las probabilidades. Estas frecuencias que ocupan las celdas de una tabla de
contingencia, se llaman frecuencias de celdas. La frecuencia total de cada fila o en cada
columna se llama frecuencia marginal.
Para investigar el acuerdo entre las frecuencias observadas y las frecuencias esperadas,
calculamos el estadstico.
Donde la suma de toma sobre todas las celdas de una tabla de contingencia y donde los
smbolos Oj y ej representan respectivamente las frecuencias observadas y esperada de la j sima celda.
La suma de todas las frecuencias observadas se denota por N y es igual a la suma de todas
las frecuencias observadas se denota por N y es igual a la suma de todas las frecuencias
esperadas.
Como antes el estadstico (5) tiene una distincin muestral dada muy aproximadamente por
(4), supuesto que las frecuencias esperadas no sean demasiado pequeas. El nmero de
grado de libertad, v de esta distribucin chi - cuadrado viene dado por h > 1 y k >1 por:
1.- v = (h - 1) (k - 1) si las frecuencias esperadas se pueden calcular sin recurrir a
estimaciones mustrales de los parmetros de la poblacin.
2.- v = (h -1) (k - 1) - m. Si las frecuencias esperadas solo se pueden calcular mediante
estimacin de m parmetros de la poblacin a partir de estadsticas de la muestra.
Los contrastes de significacin para las tablas h x k son similares a los de las tablas 1 x k. Las
frecuencias esperadas se hallan sujetas a una hiptesis particular h0.
Las tablas de contingencia se pueden generalizar a ms dimensiones. As, por ejemplo,
podemos tener tablas h x k x 1, donde estn presentes tres clasificaciones.
Muestras.
Es un subconjunto de la poblacin que contiene las mediciones obtenidas mediante un
experimento.
Dos varianzas Utilizando la razn de varianzas (f de fisher).
Como hemos visto es importante conocer la distribucin de muestreo de la diferencia en
medias de dos muestras. De la misma manera, podemos necesitar la distribucin de muestreo
de la diferencia en varianzas (s21 - s22). Resulta sin embargo, que esta distribucin es
complicada, por lo que en lugar de eso, consideramos el estadstico s21 / s22, ya que en un
cociente grande o pequeo indicar una gran diferencia, mientras un cociente cercano a 1
indica una pequea diferencia. Su distribucin de muestra se llama distribucin f, en honor a
R. A. Fisher.
Mas correctamente, sean dos muestras 1 y 2 de tamaos N1 Y N2, respectivamente, tomadas
de dos poblaciones normales (o casi) con varianzas 21 y 22, Definamos el estadstico.
Donde
Entonces la distribucin de muestreo de F se llama distribucin de F de Fisher o en breve,
distribucin F, con v1 = N1 - 1 y v2 = N2 - 1 grados de libertad. Esta distribucin viene dada
por:
Donde C es una constante que depende de v1 y v2 tal que el rea total bajo la curva es 1.
La forma de esta curva puede variar considerablemente segn los valores de v1 y v2.
Puede probarse que la distribucin F es el modelo de probabilidad por el cociente de las
varianzas de muestras tomadas en forma independiente de la misma poblacin con
distribucin normal y que existe una distribucin F diferente para cada combinacin de grados
de libertad (g1) correspondiente al numero de muestra. Para todas las muestras, g1 = n - 1
por ello, la estadstica que se utiliza para probar la hiptesis nula con respecto a la diferencia
entre dos varianzas es:
F=
Aun cuando esta hiptesis nula sea cierta, no es probable que las varianzas muestras de
cualquier par de muestras sean idnticas.
Para datos Apareados y no Apareados.
-. Distribucin T Student.
Definamos el estadstico:
Que es anlogo al estadstico Z dado por:
Si consideramos muestras de tamao N tomadas de una poblacin normal (o casi normal) con
media y si para cada una calculamos t, usando la media muestral x y la desviacin tpica
muestral S ^s, puede obtenerse la distribucin de muestreo para t.
Esta distribucin viene dada por:
Donde yo es una constante que depende de N tal que al rea total bajo la curva es 1, y donde
la constante V = (n - 1) se llama el nmero de grados de libertad (v es la letra griega nu).
La distribucin (2) se llama distribucin t de Student en honor de su descubridor, W.S Gosset;
para grandes valores de v o de N (ciertamente N" 30), las curvas (2) se ajustan mucho a las
curva normal cannica.
Muestras Grandes y Muestras Pequeas.
Para muestras de tamao N > 30, llamadas grandes muestras, las distribuciones de muestreo
de muchos estadsticos son aproximadamente normales, siendo la aproximacin tanto mejor
cuanto mayor sea N.
Para muestra de tamao menor que 30, llamadas pequeas muestras, esa aproximacin no
es buena y empeora al decrecer N, de modo que son precisas ciertas modificaciones.
El estudio de la distribucin de muestreo de estadsticos para pequeas muestras se llama
teora de pequeas muestras, sin embargo un nombre ms apropiado seria teora exacta del
muestreo, pues sus resultados son validos tanto para pequeas muestras como para grandes.
Para datos Apareados y no Apareados.
En muchas situaciones las muestras se extraen como pares de valores, tal como cuando se
determina el nivel de productividad de los trabajadores, antes y despus de un programa de
capacitacin. A esta clase de datos se les denomina observaciones apareadas a pares
asociados. Tambin a diferencia de las muestras independientes a dos muestras que
contienen observaciones apareadas se les denomina dependientes.
El mtodo apropiado para probar la diferencia entre observaciones apareadas consiste en
determinar la diferencia d entre cada par de valores y despus probar la hiptesis nula de
que la diferencia poblacional promedio es 0. por ello desde el punto de vista de los clculos,
se aplica una prueba a una muestra de valores d.
La diferencia promedio para el conjunto de observaciones apareadas es:
La frmula de desviacin y la abreviada para la distribucin estndar y las diferencias entre
datos apareados son:
El error estndar del promedio de las diferencias entre datos apareados se obtiene mediante
la frmula del error estndar de la media, excepto que se sustituye el por x:
Como el error estndar del promedio de las diferencias se calcula con base a datos
apareados y como por lo general, se supone que los valores d tienen una distribucin
normal, la distribucin t resulta apropiada para probar la hiptesis nula de que d = 0.
Una proporcin Muestral y una Poblacional:
Muestras Grandes
Distribucin Normal (z).
Puede utilizarse la distribucin normal como aproximacin de la binomial cuando n " 30 y,
tanto np " 5 como n (q) " 5, donde q = 1 - p. Sin embargo en el caso de intervalos de confianza
se requiere un tamao de muestra n =100.
En pruebas de hiptesis, el valor del error estndar de la poblacin que se utiliza se basa en
el valor hipottico 0.
La formula del error estndar de la proporcin que incluye el factor de correccin por
poblacin finita es:
La formula para la distribucin normal z sera:
Para determinar el tamao de la muestra que se requiere para probar el valor de una
proporcin (antes de extraerla) especificando el valor hipottico de la proporcin, un valor
alternativo especifico de la proporcin, de manera que la diferencia con respecto al valor
hipottico - nulo resulte considerable; el nivel de significacin que debe utilizar en la prueba, y
la probabilidad del error tipo II que se permite. La frmula que determinar el tamao mnimo
de las muestras que se requieren para probar dicho valor de la proporcin es:
Donde z0 es el valor critico de z que se utiliza con el nivel especificado de significanca (nivel )
en tanto que z1.
Es el valor que corresponde a la probabilidad designada del error tipo II (nivel ).
Cuando se determina el tamao de la muestra para probar la media, z0 y z1 siempre tienen
signos algebraicos opuestos.
Ejercicios de Aplicacin:
Para una Media Muestral y una Poblacional:
La vida til promedio de una muestra aleatoria de n1 = 10 focos es x1 = 4.600 horas con s1 =
250 horas para otra marca de focos, la vida til promedio y la desviacin estndar para una
muestra de n2 = 8 focos son x2 = 4.000 horas y s2 = 200 horas. Se asume que la vida til de
los focos de ambas marcas tiene una distribucin normal. El intervalo de confianza de 90%
para estimar la diferencia entre las vidas tiles de las dos marcas de focos es:
Utilizando la Distribucin Z:
El salario promedio mensual para una muestra de n1 = 30 empleados de una empresa
manufacturera grande es x1 = $ 280,000, con desviacin estndar muestral de s1 = $ 14,000
en otra Empresa grande, una muestra aleatoria de n2 = 40 empleados, tiene un salario
1
2
1
4
40
10
1
0
1
0
1
0
40
Para aceptar la hiptesis nula, debe ser posible atribuir las diferencias entre las frecuencias
observadas y la esperada a la variabilidad del muestreo y al nivel especificado de
significancia. As la estadstica de prueba ji-cuadrada se basa en la magnitud de esta
diferencia para cada una de las categoras de la distribucin de frecuencia. El valor de jicuadrada que se utiliza para probar la diferencia entre un patrn de frecuencia observado y
otro esperado es:
Se observa que, si las frecuencias observadas son muy cercanas a las frecuencias
esperadas, entonces el valor calculado de la ji-cuadrada estar cercano a 0. Conforme las
frecuencias observadas se alejan de las frecuencias esperadas el valor de ji-cuadrada se
vuelve mayor. Por ello, se concluye que las pruebas de ji-cuadrada implican el uso de
solamente el extremo superior, con el objeto de determinar si un patrn observado de
frecuencias es diferente de un patrn esperado.
Ejemplo 2.- El clculo de la estadstica de prueba ji-cuadrada para el patrn de frecuencias
observadas y esperadas de la tabla 12.1 es:
El valor que se requiere de la estadstica de prueba ji - cuadrada para rechazar la hiptesis
nula depende del nivel de significancia que se especifique y de los grados de libertad. En
pruebas de bondad del ajuste, los grados de libertad gl son iguales al nmero de categoras
menos el nmero de estimadores de parmetros y menos 1. Los grados de libertad par una
prueba e bondad del ajuste con ji . cuadrada son (en donde k = a nmero de categoras de
datos y m = nmeros de parmetros estimados con base en la muestra):
gl = k - m - 1
Mujeres
Total
Nmero en la Muestra
(f0)
25
15
40
20
20
40
De la tabla 12.10
H0: El nmero de clientes hombres y mujeres es igual.
H1: El nmero de clientes hombres y mujeres no es igual.
gl = k -m-1 = 2-0-1 =1
x2 Crtica (gl = 1, = 0.05) = 3.84
La estadstica de prueba calculada, 2.50 no es mayor que el valor crtico de 3.84. Por lo tanto,
no es posible rechazar la hiptesis nula a un nivel de significancia de un 5%.
Ejemplo 4.- Durante mucho tiempo, un fabricante de aparatos de televisin a tenido 40% de
sus ventas en aparatos de pantallas pequeas (de menos de 1 pulgadas), 40% de tamao
mediano (de 14 a 19 pulgadas) y el 20% en la categora de pantalla grande (de 21 pulgadas y
ms). Para fijar los programas adecuados de produccin para el mes siguiente, se torna una
muestra aleatoria de 100 ventas durante el periodo y se encuentra que 55 de los aparatos
eran pequeos, 35 medianos y 10 grandes. En seguida, se prueba la hiptesis nula de que el
patrn histrico de ventas sigue siendo igual, utilizando el nivel de significancia de 1%.
H0 : Los porcentajes de compras de aparatos de televisin de pantalla pequea, mediana y
grande son 40%, 40% y 20% respectivamente.
H1: el patrn actual de ventas de televisores es diferente del patrn histrico planteado en H0.
gl 0 k - m - 1 = 3-0-1 = 2
X2 Crtica (gl = 2, = 0.01) = 9.21
La X2 calculada (en la tabla 12.2 se encuentran las frecuencias observadas y esperadas) es:
La estadstica ji - cuadrada calculada de 11.25 es mayor que el valor crtico de 9.21. Por ello,
se rechaza la hiptesis nula a un nivel de significancia de 1%. Comparando la frecuencias
observadas y esperadas de la tabla 12.2, se encuentra que el cambio principal consiste en
que se venden ms aparatos pequeos y menos grandes, con ciertas reduccin en las ventas
de los aparatos de tamao mediano.
Tabla 12.2 Compras Observadas y esperadas de aparatos de televisin, de acuerdo con
el tamao de la pantalla.
Tamao de la Pantalla
Pequea
Mediana
Total
Frecuencia
Observada, f0
55
35
10
100
Patrn Histrico, fe
40
40
20
100
Gran
de
Tablas de Contingencia.
Ejemplo 5.- La tabla 12.3 es una reproduccin de la seccin 5.8 y es un ejemplo del formato
ms simple posible de una tabla de contingencia, ya que las dos variables (Sexo y Edad) tiene
solo dos niveles de clasificacin, o categoras. Por ello, se trata de una tabla de contingencia
de 2 x2.
Tabla 12.3 Tabla de contingencia para los clientes de la tienda de aparatos de sonidos.
Sexo
Edad
Menor de 30
Hombre
60
50
Muj
er
Total
110
30 y ms
Total
80
10
90
140
60
200
Si se rechaza la hiptesis nula de independencia para datos clasificados como los de la Tabla
12.3, es seal de que las dos variables son dependientes y que existen una relacin entre
ellas. Por ejemplo, para la tabla 12.3, esto indicara que existe una relacin entre la edad y el
sexo para los clientes de la tienda de aparatos de sonido.
Dada la hiptesis de independencia las dos variables, la frecuencia esperada correspondiente
a cada una de las celdas de la tabla de contingencia debe ser proporcional al total de
frecuencias observadas de columnas y de regln. Si fr es la frecuencia total de un regln
determinado fx es la frecuencia total de una columna determinada, entonces una formula
conveniente para determinar la frecuencia esperada para la celda de la tabla de contingencia
que se encuentra en ese rengln y columna es:
La formula general para los grados de libertad correspondiente a una prueba de
independencia es:
gl = (r - 1) (k - 1).
Ejemplo 6.- En la tabla 12.4 se presentan las frecuencias esperadas para los datos de la tabla
12.3. Por ejemplo para la celda de rengln 1 y columna 1, el calculo de la frecuencia esperada
es:
En este caso, las tres frecuencias esperadas restantes pueden obtenerse mediante
substraccin de los totales de rengln y de columnas, como alternativas al uso de las formulas
(12.3). Esta es una indicacin directa de que existe un grado de libertad para una tabla de
contingencia de 2x2 y que solo la frecuencia de una celad tiene libertad para variar.
Tabla 12.4 Tabla de frecuencia esperadas para las frecuencias observadas que se
reportan en la tabla 12.3.
Sexo
Edad
Hombres
Muj
er
Total
Menor de 30
77
33
110
30 y ms
63
27
90
140
60
200
Total
No
Total
10
40
50
20
30
50
La estadstica de prueba calculada de 8.33 excede el valor crtico de 3.84. Por ello se rechaza
la hiptesis nula a un nivel de significancia de 5% y se concluye que la proporcin de
participantes en el programa en toda la empresa no es de 0.40.
Ejemplo 9.- Suponga que se muestren los hogares de cuatro comunidades y se investiga el
nmero en los que se estaba viendo el programa especial de televisin. En la tabla 12.8 se
presentan los datos mustrales observados, y en la tabla 12.9 se presentan las frecuencias
esperadas, calculadas con la frmula (12.3). Enseguida se realiza la prueba de la hiptesis
nula de que no existen diferencias entre las proposiciones poblacionales.
H0 : 1 = 2 = 3 = 4 H0 : No todas 1 = 2 = 3 = 4
(Nota: El rechazo de la hiptesis nula no indica que todas las igualdades son falsas si no que
cuando menos una es falsa).
Tabla 12.8 audiencia del programa de televisin en cuatro comunidades.
Comunidades
Total
Nmero de
Televidentes
10
15
18
48
Nmero de no
Televidentes
40
35
45
32
152
Total
50
50
50
50
200
Total
Nmero de
Televidentes
12.0
12.0
12.0
12.0
48
Nmero de no
Televidentes
38.0
38.0
38.0
38.0
152
50
50
50
50
200
Total
Total
Mujer
es
Hombres
Nmero en la
Muestra (f0)
25
15
40
Nmero
Esperado (fe)
20
20
40
De la tabla 12.10.
H0 : El nmero de clientes hombres y mujeres el igual.
H1: El nmero de clientes hombres y mujeres no es igual.
gl = k - m - 1 = 2 - 0 - 1 = 1
X2 crtica (gl = 1, = 0.05) = 3.84
La estadstica de prueba calculada, 2.50, no es mayor que el valor crtico de 3.84. Por lo tanto,
no es posible rechazar la hiptesis nula a un nivel de significancia del 5%.
F
Y
F F 0.99
0.95