Está en la página 1de 34

128

4. ESTADISTICA INFERENCIAL

Esta parte de la Estadística se orienta al estudio de aspectos referentes a una


población mediante el empleo de muestras con indicaciones de la aproximación de
las conclusiones sacadas y basadas en la teoría de probabilidades. La Inferencia
Estadística comprende en especial tres aspectos:

La Teoría de Muestreo; la cual estudia en forma general las relaciones existentes


entre las medidas que se hagan en una población y las correspondientes en las
muestras que se saquen de ella.

La Teoría de Estimación; intenta ubicar en una forma cuantitativa las magnitudes


referentes a la población a partir del conocimiento de las correspondientes
magnitudes en las muestras.

La Teoría de Significatividad e Hipótesis; determina si diferencias observadas


entre dos muestras son debidas a una variación normal o son realmente
significativas.

4.1 TEORIA DE MUESTREO

4.1.1 Conceptos

El muestreo puede considerarse como el conjunto de técnicas y procedimientos


para obtener muestras. Es necesario precisar algunas definiciones:

Población o universo. Conjunto total de unidades o elementos hacia el cual se


dirige el estudio y que presentan una característica común o también un conjunto
de medidas u observaciones. Si la característica observada es un valor medido, se
denomina variable si solamente se registra su presencia se denomina atributo.

La característica que se estudia en la población puede ser resumida mediante una


129

medida estadística; esta medida para la población se denomina parámetro y se ha


establecido como costumbre escribirla con letras griegas; así  y  se usan para
denotar la media y la desviación normal de la población.

La población puede ser finita tal como las estaturas de 15000 estudiantes o infinita
tal como los resultados de concentración en un proceso continuo de fabricación.

Muestra. Es un subconjunto seleccionado de la población.

La característica que se estudia en la muestra puede ser resumida mediante una


medida estadística; ésta medida para las muestras se denomina estadístico y se
acostumbra escribirla con letras latinas, así X y s la media y la desviación
normal de la muestra.

4.1.2 Diseños de muestreo.

Para que las conclusiones de la teoría de muestreo y la inferencia consiguiente


sean válidas, las muestras deben escogerse de manera que sean representativas
de la población. Un estudio de los métodos de muestreo y los problemas
relacionados que surgen se denomina el diseño de la experiencia.

Para evaluar un diseño de muestreo se tienen en cuenta dos aspectos:

La fiabilidad que es la varianza del estadígrafo muestral que se está considerando.

La efectividad que es el costo del muestreo a igual nivel de fiabilidad.

Los diseños de muestreo se clasifican de la siguiente manera:

A. Diseños no probabilísticos, los cuales utilizan métodos no aleatorios que


pueden ser del siguiente tipo:
- Muestra seleccionada por expertos es decir siguiendo la opinión de personas con
experiencia en la materia objeto del estudio.
- Muestras a criterio, las unidades de la muestra son seleccionadas por el operario
o inspector sobre el terreno entre las que a su juicio son representativas de la
población.
- Muestras por cuotas, para la decisión sobre las unidades de muestra se hace uso
de categorías predeterminadas que se establecen de acuerdo a los objetivos que
busca el estudio.

B. Diseños probabilísticos, las unidades de muestra son escogidas de la


población mediante métodos aleatorios. Este muestreo requiere que cada unidad
en la población tenga una probabilidad conocida de ser incluida en la muestra.
Con éste procedimiento se satisfacen dos necesidades: a) la posibilidad de
realizar estimaciones aplicables al universo sobre la base de la información
130

obtenida en la muestra, b) la posibilidad de evaluar la exactitud de los resultados


finales a través del cálculo de errores y de coeficientes.

Entre los diseños probabilísticos se distinguen los siguientes:

- Muestreo aleatorio simple; se seleccionan n elementos de una población de


tamaño N bajo el supuesto de que todo elemento de la población tiene la misma
probabilidad de ser seleccionado.

- Muestreo sistemático; se adopta una fórmula con cierto grado de periodicidad


para seleccionar los elementos de la muestra.

- Muestreo estratificado; si la población está integrada por subgrupos identificables


y se está interesado en estimar adicionalmente las características de ellos. De las
estimaciones para los subgrupos pueden obtenerse los parámetros de la
población. Cuando los subgrupos no se intersectan se denominan estratos.

4.1.3 Muestras aleatorias.

Para el muestreo en Control de Calidad se prefiere los métodos probabilísticos de


selección de la muestra ya que el objetivo es la inferencia y se requiere una
muestra que sea representativa.

Una muestra aleatoria se toma de modo que toda unidad elemental disponible
para observación tenga la misma probabilidad de ser incluida en la muestra y por
tanto toda muestra aleatoria de igual tamaño tomada de una población dada ha de
tener la misma probabilidad de ser escogida.

En las poblaciones finitas de N elementos, el número de muestras diferentes


posibles de n elementos se presenta de la siguiente manera:

Muestreo sin restitución, en el cual los elementos no se repiten en la muestra. Las


muestras distintas posibles son,

N!
CN,n = ------------
(N-n)! n!

Muestreo con restitución, en el cual los elementos podrían repetirse en la muestra.


Ya que cada elemento de la muestra puede seleccionarse de N maneras, las
muestras distintas posibles son,

N * N * ... * N = Nn

En las poblaciones infinitas, el número de muestras posibles es lógicamente


infinito. Una población finita en la cual se hace muestreo con restitución puede
131

técnicamente considerarse como infinita.

Para muchos propósitos prácticos, el muestreo a partir de una población finita


suficientemente grande puede considerarse como el muestreo a partir de una
población infinita.

4.1.4 Distribuciones muestrales.

De una población cualquiera, salen muchas muestras diferentes de igual tamaño y


en cada una de ellas pueden obtenerse estadísticos de la muestra en los cuales
se esté interesado; estos estadísticos generan en cada caso una distribución. Si
se consideran todas las posibles muestras de tamaño n tomadas de una
población; para cada muestra puede calcularse un determinado estadístico ( por
ejemplo la media o la desviación normal ).

El conjunto de estadísticos resultante constituye una distribución del estadístico la


cual se denomina distribución muestral del estadístico ( de medias, de
desviaciones normales o de varianzas según sea el caso ). Esto es; sea :

m1, m2, m3, ....... mj

el conjunto de las muestras posibles, entonces,


_ _ _ _
X1, X2, X3, ....... Xj

el conjunto de las medias de las muestras el cual genera una distribución muestral
de medias

p1, p2, p3, ....... pj

el conjunto de las proporciones de alguna característica en las muestras el cual


genera una distribución muestral de proporciones

s1, s2, s3, ....... sj

el conjunto de las desviaciones normales de las muestras el cual genera una


distribución muestral de desviaciones normales

s12 s22 s32 ....... sj2

el conjunto de las varianzas de las muestras el cual genera una distribución


muestral de varianzas.

Y en general para cada estadístico de interés se genera la correspondiente


distribución muestral.
132

Esta nueva distribución posee a su vez sus propias medidas de posición o de


dispersión y entonces podría hablarse de la media de la distribución muestral de
medias ( X ) o la desviación normal de la distribución muestral de medias ( X ).

4.1.4.1 Distribución muestral de medias

En el estudio de las muestras extraídas de una población resulta de gran


importancia el siguiente Teorema:

Si se tiene la distribución muestral de medias de una población que presenta


comportamiento Normal (población distribuida normalmente), la distribución
muestral de medias también será normal aún para valores pequeños de n ( esto
es n < 30 ).

Para valores grandes de n ( n  30) la distribución muestral de medias es


aproximadamente normal aunque la distribución original no lo sea.

Este teorema permite considerar como normales las distribuciones muestrales de


medias en la mayoría de los casos relacionados con el Control de Calidad.

Para una distribución muestral de medias tomadas de una población se tienen las
siguientes relaciones, las cuales son demostrables y consideradas como
teoremas.

Si X y X son parámetros de la distribución muestral de medias, (muestras de


tamaño n) y  y  son los parámetros correspondientes a la población.

x

x x

La media de la distribución muestral de medias (X ) coincide con la media


133

poblacional ( ) ya sea para poblaciones infinitas o para poblaciones finitas.

E( X ) = X = 

La desviación normal de la distribución muestral de medias (X ) esta dada por :


--------------------------------

X = -------
n
--------------------------------

para poblaciones infinitas, o técnicamente consideradas infinitas (finitas con


muestreo con restitución o suficientemente grandes).

-------------------------------------------
-------
 √N - n
X = ------- --------
---- ------
n √N - 1

-------------------------------------------

para poblaciones finitas de tamaño N.

La desviación normal de la población  por lo general se desconoce y por lo tanto


debe estimarse; la relación para estimar la desviación normal poblacional es:
______
  s  n / (n-1)

Este valor estimado, por lo general se denomina n-1 en las calculadoras.

4.1.4.2 Distribución muestral de proporciones.

En ocasiones resulta de interés determinar la proporción de elementos de una


población que presentan una determinada característica.
Para la distribución muestral de proporciones (muestras de tamaño n) se tiene
que:
134

p

p p

La media de la distribución muestral de proporciones ( P ) coincide con la


proporción en la población ( p ) para poblaciones finitas o infinitas.

P = p

La desviación normal de la distribución muestral de proporciones (P ) está dada


por :

______
√p (1-p)
P = -----------
√n

para poblaciones infinitas, o técnicamente consideradas infinitas ( finitas con


muestreo con restitución o suficientemente grandes).

----------- -------
√ P(1- P) √ N-n
P = --------- ----------
√n √N-1

Para poblaciones finitas de tamaño N.

De manera similar para las distribuciones muestrales de otros estadísticos pueden


tenerse valores correspondientes de la media y la desviación normal. En la tabla
que se presenta más adelante, se resumen los casos más utilizados.
135

EJEMPLO : Los artículos fabricados por una empresa en una línea de cristalería
han presentado tradicionalmente un 5 % de elementos con defectos menores
visibles. Si un potencial comprador inspecciona una muestra de 200 artículos,
¿Cuál es la probabilidad de que encuentre 4 o menos artículos con el defecto?

N:  n : 200
P : 0,05 P : 0,05
_________ _____________
P :  P(1-P)/n = (0,05x0,95)/200 = 0,0154

Lo que se pide es entonces:

Pr [(0/200)  P  (4/200)]

al tratar la variable discreta como continua queda ;

Pr [(-0,5/200)  P  (4,5/200)] = Pr (-0,0025  P  0,025)

al tipificar la variable se tiene;

z2 -0,0025 - 0,05
=  f(z)dz z1 = -------------------- = -3,41
z1 0,0154

0,0225 - 0,05
z2 = ------------------- = -1,79
0,0154

= 0,4997 - 0,4633 = 0,0364 ===> 3,6 %

4.1.4.3 Tabla de resumen de distribuciones muestrales.


136
136

TEORIA DE MUESTREO

DISTRIBUCION MEDIA DE LA DESVIACION NORMAL DE LA


MUESTRAL DE: DISTRIBUCION MUESTRAL DISTRIBUCION MUESTRAL

MEDIAS (estimador insesgado) ___


Estadístico Parámetro x = /  n
 = 

X

(estimador insesgado)
PROPORCIONES
Estadístico Parámetro __________

p = P p =  P (1- P) / n
p P
(estimador sesgado)
DESV. NORMALES
Estadístico Parámetro ___

s 
s    S = /  2 n
VARIANZAS (estimador sesgado) _____
Estadístico Parámetro
 s2 = 2 (n-1) / n s 2 =  2
2/n
s2  2

SUMAS O DIFERENCIAS (estimador insesgado)


DE MEDIAS
Estadístico Parámetro
__________

(XA  XB) ( A  B)  (XA  XB) = XA  XB (XA  XB) = 2XA +2XB
XA =  A /  nA
__
SUMAS O DIFERENCIAS DE XB =  B /  nB
PROPORCIONES
Estadístico Parámetro (estimador insesgado)

(pA  pB) (PA  PB) __________


(p A pB) = PA  PB (PA  PB) =2PA+2PB
_____________
PA =  PA (1- PA) / nA
_____________
PB =  PB (1- PB) / nB

corrección para población finita:


_________
(N-n) / (N-1)
137

4.2 TEORIA DE ESTIMACION

4.2.1 Estimadores.

Con la Teoría de estimación se pretende localizar los parámetros poblacionales


con base en los estadísticos muestrales medidos. Los valores logrados se
denominan estimadores; un estimador puede ser de dos clases; si el parámetro
que va a ser estimado lo da como un único valor, se denomina estimador
puntual, mientras que si la estimación se da como un valor posible entre dos lími-
tes, se denomina estimador de intervalo. Un buen estimador debe presentar
algunas características especiales.

Los criterios que se tienen en cuenta para evaluar un estadígrafo como estimador
son: consistencia, sesgo, eficiencia y suficiencia.

4.2.1.1 Consistencia. Un estadígrafo muestral calculado a partir de una muestra


de tamaño n se considera consistente si su diferencia con el parámetro se hace
menor a medida que se aumenta el tamaño n de la muestra.

4.2.1.2 Sesgo. Cuando la Esperanza o valor esperado de un estadístico coincide


con el parámetro se dice que el estadístico es un estimador insesgado del
parámetro ( es decir que no posee una tendencia natural a desviarse); lo anterior
es equivalente a decir que la media de la distribución muestral del estadístico
coincide con el parámetro correspondiente.

E( estadístico ) = Parámetro
_
Por ejemplo, para la media aritmética ( X ) y para la proporción muestral ( P ),
_
E( X ) =  E( p ) = P

Por lo cual, tanto la media muestral como la proporción muestral son estimadores
insesgados de la media poblacional y de la proporción poblacional
respectivamente.

No obstante, para la desviación normal ( s ) y para la varianza (s2 ),

E( s ) ≠  E( s2 ) ≠ 2

Por lo cual, tanto la desviación normal muestral como la varianza son estimadores
sesgados de la desviación normal poblacional y de la varianza poblacional
respectivamente.
138

4.2.1.3 Eficiencia. La eficiencia de un estimador se enuncia en términos relativos.


Si se utilizan dos estadígrafos como estimadores del mismo parámetro, aquel cuya
distribución muestral tenga la menor varianza se considera como estimador más
eficiente que el otro.

Por ejemplo, para una población que se sabe distribuida normalmente, la media, la
mediana y la moda coinciden, es decir que los tres estadísticos muestrales podrían
ser estimadores de la media poblacional, no obstante la distribución muestral de
medias posee una varianza menor que la de las otras, por lo tanto la media
muestral se considera un estimador más eficiente de la media poblacional que las
otras.

4.1.2.4 Suficiencia. Un estadístico es estimador suficiente de un parámetro


cuando agota toda la información pertinente sobre el parámetro de que se puede
disponer en la muestra.

La media muestral, la proporción muestral y la varianza muestral corregida son


estadígrafos que satisfacen los criterios de buenos estimadores.

4.2.2 Estimadores de intervalo.

El procedimiento de determinar un intervalo que comprenda un parámetro de


población con cierta probabilidad ( 1- ) se llama estimación por intervalos. El valor
 designa la probabilidad de que el intervalo no incluya el verdadero valor del
parámetro.

Sean e y e la media y la desviación normal (error típico) de la distribución


muestral de un estadístico e.

Si ésta distribución muestral del estadístico e es normal (lo cual es cierto para
muchos estadísticos, si el tamaño de la muestra es grande n =30 ).

Cabe esperar que cualquier valor obtenible del estadístico e se encuentre en los
intervalos determinados por:

e - e  e + e el 68,27 % de las veces

e - 2 e  e + 2 e el 95,45 % de las veces


139

e - 3 e  e + 3 e el 99,73 % de las veces

A B C C B A
68,27%

(e-3e) e (e+3e)

Análogamente si se tiene e se puede esperar encontrar a e en los intervalos


determinados por: e +/- 1e e +/- 2e e +/- 3e

e - e  e + e el 68,27 % de las veces

e - 2 e  e + 2 e el 95,45 % de las veces

e - 3 e  e + 3 e el 99,73 % de las veces

Estos intervalos pasan a denominarse intervalos de confianza así:

[e - e  e + e] intervalo de confianza del 68,27 %


[e - 2e  e + 2e] intervalo de confianza del 95,45 %
[e - 3e  e + 3e] intervalo de confianza del 99,73 %

y los valores extremos de los intervalos se denominan los límites de confianza.

De igual manera y por facilidad al expresar el intervalo de confianza se utilizan


otros valores para el coeficiente de e tomados de la tabla de la curva normal; por
ejemplo:

[e - 1,96 e  e + 1,96 e] intervalo de confianza del 95 %


140

[e - 2,58 e  e + 2,58 e] intervalo de confianza del 99 %

Los correspondientes porcentajes de los intervalos de confianza (1-) se


denominan niveles de confiabilidad.

Los coeficientes de e se denotan en general como Zc e implican el nivel de


confiabilidad con que se desee trabajar. Así con base en la tabla de la curva
normal se relacionan a continuación los niveles de confiabilidad más utilizados y
sus correspondientes coeficientes Zc.

Nivel de confiabilidad Zc

50 % 0,6745
68,27 % 1,0
80 % 1,28
90 % 1,65
95 % 1,96
95,45 % 2,0
99 % 2,58
99,73 % 3,0

4.2.3 Tabla resumen de los principales intervalos de confiabilidad.


141

INTERVALOS DE CONFIABILIDAD

Para medias

 media poblacional entre los límites:

_ _ 
X ± Zc X ===> X ± Zc ------ Población infinita
n
_____
_ _  √ N-n
X ± Zc X ===> X ± Zc --- ------------- Población finita
n √ N-1

Para proporciones

P proporción poblacional entre los límites :

__________
p ± Zc P ===> p ± Zc  P(1-P)/n Población infinita

_______ _____
√ p(1-p) √ N-n
p ± Zc P ===> p ± Zc ------------ x ---------- Población finita
√n √N-1

Para desviaciones normales

 la desviación normal poblacional entre los límites :

 S
s ± Zc S ===> s ± Zc ------  s ± Zc ----
 2n  2n

Para varianzas (se sigue un procedimiento diferente y un comportamiento según


otra distribución)
142

Para sumas y diferencias de medias

[XA+XB] la media de la población de sumas entre los límites:

(ẋA + ẋB) ± Zc

[XA-XB] la media de la población de diferencias entre los límites:

(ẋA - ẋB) ± Zc

Para sumas y diferencias de proporciones

[PA+PB] la media de la población de sumas entre los límites:

(PA + PB) ± Zc

[PA-PB] la media de la población de diferencias entre los límites:

(PA - PB) ± Zc
143

EJEMPLO : Una producción de 1800 artículos de plástico contiene una proporción


desconocida de elementos defectuosos en cuanto a la resistencia a la flexión. Se
toma una muestra al azar de 120 elementos y se examinan respecto a un mínimo
de flexiones que deben soportar antes de presentar grietas; se encontró un 82 %
de elementos satisfactorios. Hallar los límites de confiabilidad del 95 % y del 99 %
para la proporción de elementos buenos en la producción total.

N : 1800 n : 120
p : 0,82 (proporción en la muestra)
Zc= 1,96 1-p = 0,18

Se necesita estimar P (proporción en la población);

Los límites para p están dados por:

p ± Zc P ===> p ± Zc

Puesto que no se dispone de mejor información se toma a P = 0,82 como


estimativo de P . Entonces se tiene;

(0,82 x 0,18)1/2 (1800 – 120)1/2


0,82 ± Zc x ---------------- x -------------
(120 )1/2 (1800 – 1)1/2

0,82 ± Zc x 0,03507 x 0,966

para confiabilidad de 95 % ( Zc = 1,96 )

0,82 ± 0,03389 Zc

0,82 ± 0,0664

0,82 ± 0,0664 [0,754 - 0,886]

Por lo tanto, la proporción de elementos buenos en la producción está en el


intervalo de 75,4 % a 88,6 % con una confiabilidad del 95 %
144

Para confiabilidad de 99 % ( Zc = 2,58 )

0,82 ± 0,03389 Zc

0,82 ± 0,0874 [0,733 - 0,907]

Por lo tanto, la proporción de elementos buenos en la producción está en el


intervalo de 73,3 % a 90,7 % con una confiabilidad del 99 %

EJEMPLO: Se desea estimar la resistencia media a la tracción de unas bandas de


nylon con una confiabilidad del 95%. Se toman aleatoriamente, 30 bandas de la
producción semanal y se les mide su resistencia. Se obtiene para ésta muestra un
valor promedio de resistencia a la tracción de 1640 Newton con una desviación
normal de 58 Newton.

a) Establecer los límites de confiabilidad según esta muestra.

N: n: 30
_
 X: 1640 N
 s: 58 N

Los límites para  están dados por:

_ _ 
X ± Zc X ===> X ± Zc ---
n

Puesto que no se conoce  se estima a partir de s:


_______ ______
  s  n / (n-1) = 58  30/29 = 58 x 1,017  59

Los límites de  para una confiabilidad del 95 % ( Zc =1,96 ) quedan :


59
1640 ± 1,96 ----- 1640 ± 21,1
30

Los límites son 1619N - 1661 N

b) Determinar el tamaño de la muestra que debería tomarse para que la


incertidumbre de la resistencia media a la tracción de cualquier lote no supere los
50 Newtons con confiabilidad del
95 %.
145

_  59
 : X ± Zc ----- 1,96 ----  50
n n

 n  2,31 n  5,36

Se tomarían muestras de por lo menos 6 bandas.

4.2.4 Consideraciones sobre el tamaño de la muestra.

El tamaño de la muestra se determina a través de un proceso de decisión basado


en las características deseadas para los estimadores y finalmente en cuanto al
aspecto práctico teniendo en cuenta el presupuesto disponible.

Las características deseadas para la estimación son: la exactitud requerida y el


nivel de confiabilidad previsto.

La exactitud se refiere a la cercanía que debe tener el estimador con la cantidad


que va a estimar; es decir la máxima desviación ( d ) permitida entre el estadístico
y el parámetro, así
_
para la media d=|-X|

para la proporción d=|P-p|

La confiabilidad se refiere a que tan a menudo se puede esperar que el


estimador esté tan cerca del parámetro como se especifica por la exactitud
requerida. Para medir el nivel de confiabilidad se utiliza la distribución normal
mediante el factor Zc como se presentó anteriormente; por ejemplo:

90 % de confiabilidad ====> Zc = 1,645


95 % de confiabilidad ====> Zc = 1,96

Para el caso específico del estimador considerado se debe tener en cuenta su


variabilidad que comúnmente se expresa por la desviación normal de la
distribución muestral del estadístico o estimador en cuestión ( su error normal ), el
cual es función del tamaño de la muestra n , así;


Para la media x = ----
n
146

________
 P(1-P)
Para la proporción P = -----------------
n

Fórmulas que para poblaciones finitas quedan afectadas por el factor


___________
 (N-n) / (N-1)

Para establecer la fórmula que permita calcular el tamaño de la muestra se utiliza


la relación:

EXACTITUD = CONFIABILIDAD x VARIABILIDAD

Así, para la media muestral como estimador de la media poblacional quedaría:

_
EXACTITUD |  -X | = d

CONFIABILIDAD Zc
__
VARIABILIDAD x = / n

Para población infinita:

 Zc22
d = Zc ----- = n = --------
n d2

Para población finita:

Zc22
____ -----
 N-n d2
d = Zc ---- --------- = n= ---------------
n N-1 (N+1) Zc22
----- + --------
N d 2N

Para la proporción muestral como estimador de la proporción poblacional se tiene


147

para población infinita

______
 P(1-P) Zc2 P(1-P)
d = Zc ---------- = n = ---------------
n d2

Para población finita:

Zc2 P(1-P)
____ ----------------
P(1-P) N-n d2
d = Zc --------- -------- = n = -------------------------
n  N-1 (N+1) Zc2 P(1-P)
------- + ------------
N d 2N

La determinación del tamaño de la muestra es un procedimiento que puede ser


confuso para el estudiante ya que los términos que intervienen en las
formulaciones no son datos precisos se puedan reemplazar directamente, sino que
provienen de un proceso de juzgamiento y escogencia que dan la impresión de
operar en un círculo vicioso.

Así, en el caso de la media como estadístico muestral, para establecer la


variabilidad poblacional (  o 2) la cual generalmente se desconoce, se debe
recurrir a estimarla por las siguientes vías :

a) Basados en estudios anteriores sobre la misma población o poblaciones


similares.

b) Conjeturas sobre la varianza o la desviación normal de acuerdo a la experiencia


y conocimientos previos que se tengan. Por ejemplo si se tiene información sobre
el mayor valor y el valor menor de la variable que alguna vez se han encontrado,
este recorrido dividido por seis puede ser una conjetura razonable.

c) Si no se dispone en absoluto de información previa o la posibilidad de una


conjetura razonable es necesario tomar una muestra piloto o preliminar y para ello
se toma un porcentaje arbitrario de la población y con ella se calcula la varianza y
se considera que con ella se aporta un buen estimativo para la varianza o la
desviación normal poblacional.
148

El nivel de confiabilidad se establece a criterio de acuerdo a la necesidad


específica que se tenga, por lo general se utilizan el 90 % o el 95 %, es decir el Z c
correspondiente.

Para fijar la exactitud requerida (d ) se pueden seguir las siguientes vías :

a) Partir también de algún conocimiento previo del comportamiento de la variable.

b) Fijar d como un porcentaje del valor de la media aritmética obtenido en algún


estudio previo similar o de una muestra preliminar; por ejemplo entre un 5 y un 10
%.

EJEMPLO : Se desea tomar muestras del suelo de una finca de 100 hectáreas
destinada a la siembra de café, para caracterizarla antes de aplicar los fertilizantes
de mantenimiento. El terreno está localizado en zona cafetera del Risaralda.
Determinar el tamaño de la muestra para una confiabilidad del 90 %.

Este es un caso en el que los datos requeridos deben elaborarse y argumentarse.


Las variables que caracterizan un suelo son: materia orgánica, fósforo, potasio,
calcio, magnesio, aluminio, pH y textura. De acuerdo al caso particular, los
técnicos consideran como de mayor importancia los valores de materia orgánica y
de potasio. El tamaño de la muestra se establecerá con esas dos vías.

Para la fórmula a utilizar se deben fijar los términos necesarios; así,

Zc22
____ --------
 N-n d2
d = Zc ---- ------ ===> n = ---------------
 n N-1 (N+1) Zc2 2
-------- + -------
N d 2N

N: El tamaño de la población se toma de 100 hectáreas, ya que en la práctica se


ha encontrado que los resultados para muestras tomadas dentro de una hectárea
no varían apreciablemente.

Zc : 1,645 ( 90 % confiabilidad ); Zc2 = 2,7


149

 : Para la variabilidad de la población es necesario basarse en conocimientos


previos.

d: Se escoge con base en conocimientos previos. La exactitud o el error aceptable


se toma como de un 10% de valores promedio que se tienen para la materia
orgánica y el potasio en la región.

De datos del Laboratorio de Suelos de la Universidad Tecnológica de Pereira para


el departamento de Risaralda se obtiene la siguiente información para la materia
orgánica y para el potasio:

materia orgánica potasio

muestras de suelo 126 126


valor promedio 13,72 (%) 0,46 (meq/100g de suelo)
varianza 22,73 0,077
recorrido de datos 24,2 1,53

Con base en esta información se toma:

Para la materia orgánica

2  s2 (n/n-1) = 22,73 (126/125) = 22,91

d : 10% del valor promedio = 0,1x13,72 = 1,372 = d2= 1,88

Para el potasio

2  s2 (n/n-1) = 0,077 (126/125) = 0,078

d : 10 % del valor promedio = 0,1x0,46 = 0,046 = d2= 0,0021

Al aplicar la fórmula para las dos vías consideradas se tiene para el tamaño de la
muestra
150

Vía contenido de materia orgánica

2,706 * 22,91
------------------ 32,97
1,88
n = ------------------------- = ---------------- = 24,61  25
101 2,706 *22,91 1,01 + 32,97
----- + ---------------- ------
100 1,88 * 100 100

Vía contenido de potasio

2,706 * 0,078
-----------------
0,0021 100,51
n = ----------------------= --------------------- = 49,9  50
101 2,706*22,91 1,01 + 100,51
----- + ----------- ------
100 1,88*100 100

Se concluye que se deben tomar 25 muestras de suelo si el objetivo es la


caracterización respecto de la materia orgánica o 50 si el objetivo es caracterizar
respecto al contenido de potasio del suelo. En la práctica y por razones de costos
se utilizan tamaños de muestra menores.

4.3 TEORIA DE DECISION ESTADISTICA

En esta parte de la teoría de muestreo se abordan situaciones que tienen que ver
con decisiones sobre poblaciones con base en la información muestral de las
mismas. Estas decisiones son del siguiente tipo: ¿ existe una diferencia real entre
dos poblaciones? Un cambio introducido en un proceso ¿realmente tiene por
consecuencia un mejoramiento significativo ? , ¿es realmente más efectivo un
procedimiento que otro ?

4.3.1 Hipótesis Estadísticas.

Para resolver las situaciones anteriores se utiliza el procedimiento de las hipótesis


estadísticas, las cuales son suposiciones que se plantean respecto de las
poblaciones para luego examinarlas estadísticamente. Estas hipótesis son:
151

Hipótesis inicial (H). Es una afirmación inicial que se hace sobre la población; se
debe presentar en una forma cuantitativa y ligada a alguna medida estadística.
Esta hipótesis se plantea ya sea con el propósito de demostrarla o de invalidarla.

Hipótesis nula (Ho). Es la forma más utilizada para plantear la hipótesis inicial;
supone que no existe diferencia entre una situación dada y una nueva situación.
Esto es, que el parámetro referente a la situación dada no difiere
significativamente del parámetro referente a la nueva situación. Puede plantearse
 nuevo =  antiguo

Hipótesis alternativa (H1). Cualquier hipótesis que difiera de la hipótesis inicial


planteada se denomina alternativa y se presenta como contraste con la inicial
basada en la misma medida estadística. Esto es que el parámetro correspondiente
a la situación nueva difiere de alguna manera significativa del parámetro
correspondiente a la situación antigua. Puede plantearse de varias maneras:

 nuevo ≠  antiguo ensayo bilateral


 nuevo >  antiguo ensayo unilateral cola superior
 nuevo <  antiguo ensayo unilateral cola inferior

Dando origen a las distintas formas del ensayo de la hipótesis.

Por ejemplo si se tiene un proceso químico cuya concentración media tiene un


valor de 300 g/L y se ha efectuado una modificación al proceso con la cual se
pretende mejorar la concentración, lo cual debe demostrarse estadísticamente;
para aplicar el procedimiento puede plantearse como hipótesis inicial la hipótesis
nula, es decir que la modificación introducida no afecta la concentración, por lo
tanto
_
Ho : X1 =  = 300 g/L .

Como hipótesis alternativa podría plantearse


_
H1 : X1 ≠  = 300 g/L

o mejor aún, ya que el interés es ver si hay un aumento de la concentración,


podría plantearse
_
H1 : X1 >  = 300 g/L.
152

4.3.2 Prueba de Hipótesis.

Una vez estudiados los resultados muestrales se debe concluir si ellos difieren
marcadamente de los que cabría esperar según la hipótesis básica, es decir si la
diferencia es significativa.

Existen unas reglas para decidir si se acepta o se rechaza una hipótesis dada y
ellas constituyen la llamada prueba de hipótesis o de significatividad; estas reglas
se apoyan en la teoría de probabilidades y especialmente en las propiedades de la
distribución normal. Se sabe que al tomar una decisión se corren riesgos de error
clasificados en dos grupos:

Error de tipo I. Rechazar una hipótesis cuando debió ser aceptada.

Error de tipo II. Aceptar una hipótesis cuando debió ser rechazada.

En general para una muestra de tamaño dado, un intento de disminuir un tipo de


error va acompañado de un incremento en el otro tipo.

4.3.3 Nivel de significatividad.

Es la probabilidad máxima de arriesgar un error de tipo I al probar una hipótesis.


Esto es la probabilidad dada de Rechazar una hipótesis que debió aceptarse. Se
acostumbra denotar ésta probabilidad por  y se establece anticipadamente para
evitar que influya en la decisión a la luz de los resultados. Se acostumbra fijar
niveles de significatividad de 0,05 y 0,01 pero puden utilizarse otros si se desea.

 = 0.05 Cinco posibilidades entre 100 de Rechazar una hipótesis que debió
ser Aceptada (o cometer error de tipo I). Lo cual implica una confiabilidad de 95 %
de que la decisión fue correcta.

Si la hipótesis se rechazó en el nivel de significatividad  = 0,05 implica que se


tiene una probabilidad del 5 % de equivocarse.

 = 0.01 Una posibilidad entre 100 de Rechazar una hipótesis que debió ser
Aceptada. Lo cual implica una confiabilidad de 99 % de que la decisión fue
correcta.

Si la hipótesis se rechazó en el nivel de significatividad  = 0,01 implica que se


tiene una probabilidad del 1 % de equivocarse.

Pr (Error de tipo I) = 
153

4.3.4 Contrastes de Hipótesis - reglas de decisión.

El contraste de hipótesis se basa en que la distribución de probabilidad de las


poblaciones estudiadas sea normal o aproximadamente normal. Si e es un
estadístico cuya distribución muestral es normal, con media  e y desviación
normal e

e - e
Ze = --------
e

e

e e

REGLA DE DECISION ESTADISTICA - PRUEBA BILATERAL O DE DOS COLAS


Si la hipótesis planteada es la hipótesis nula (Ho) o sea que la nueva situación no
difiere de la inicial y la hipótesis alterna (H1) es simplemente que la nueva situación
es significativamente diferente de la inicial.

Ho : e =  H1 : e ≠ 

Para un nivel de significatividad  = 0,05 , el cual se reparte entre los dos


extremos.

f(z)

R A R
0,95
0,025 0,025

Z = -1,96 Zc =1,96 Z
154

La hipótesis planteada será Aceptada con un 95 % de confiabilidad si el Z


obtenido para el estadístico e de la información muestral cae entre Zc = -1,96 y Zc
= 1,96. Si por el contrario, el Z obtenido cae fuera del intervalo, la hipótesis será
Rechazada.

REGLA DE DECISION ESTADISTICA - PRUEBA UNILATERAL O DE UNA COLA

Si la hipótesis planteada es la hipótesis nula (Ho) o sea que la nueva situación no


difiere de la inicial y la hipótesis alterna (H1) es que la nueva situación es
significativamente MEJOR O PEOR que la inicial. En este caso se está interesado
solamente en valores extremos del estadístico e a un solo lado de la media de la
distribución muestral  e.

Ho : e =  H1 : e > 

Ho : e =  H1 : e < 

Para un nivel de significatividad  = 0,05 ; el cual se recarga en uno de los


extremos de la distribución
(Cola superior)

f(z)

A R
0,95
0,05

Z =1,645 Z

La hipótesis planteada será Aceptada con un 95 % de confiabilidad si el Z


obtenido para el estadístico e de la información muestral cae en un valor menor
que Zc = 1,645. Si por el contrario, el Z obtenido cae en un valor superior a Zc =
1,645, la hipótesis será Rechazada.
(Cola inferior)
155

f(z)

R A
0,95
0,05

Z = -1,645 Z

La hipótesis planteada será Aceptada con un 95 % de confiabilidad si el Z


obtenido para el estadístico e de la información muestral cae en un valor mayor
que Zc = -1,645. Si por el contrario, el Z obtenido cae en un valor inferior a Zc = -
1,645, la hipótesis será Rechazada.

El procedimiento para la toma de decisión estadística mediante contraste de


hipótesis puede resumirse de la siguiente manera :

1) Establecer que la distribución de probabilidad de la población es normal.

2) Fijar el nivel de significación con que se desee trabajar (  = 0,05  = 0,01 ) el


cual va a determinar la respectiva confiabilidad ( 95 % , 99 % ).

3) Plantear la hipótesis inicial ( por lo general hipótesis nula Ho )

4) Plantear la hipótesis alternativa conveniente H1 , la cual determinará que la


prueba sea bilateral (de dos colas) o unilateral (de una cola).

5) Establecer el intervalo para Z.

6) Apoyándose en la hipótesis establecida y en las informaciones muestrales se


calcula Ze ( el proveniente del estadístico tipificado con respecto a los parámetros
de la población contra la cual se contrasta ).

7) Se aplica la correspondiente regla de decisión estadística comparando el Ze


con el correspondiente Z crítico para la situación considerada así:
156

Ensayo bilateral:

Nivel  =0,05 valor crítico de Z: +/-1,96

Nivel  =0,01 valor crítico de Z: +/- 2,58

Ensayo unilateral: (cola superior)

Nivel  =0,05 valor crítico de Z: + 1,65

Nivel  =0,01 valor crítico de Z: + 2,33

Ensayo unilateral: (cola inferior)

Nivel  =0,05 valor crítico de Z: - 1,65

Nivel  =0,01 valor crítico de Z: - 2,33

Se concluye por lo tanto que la decisión que se tome depende de varios factores:

- El nivel de significatividad requerido.


- La hipótesis establecida (generalmente la nula).
- La hipótesis alterna.
- La información que aporta la muestra.
- La ubicación resultante de Ze.

EJEMPLO: En un proceso químico de producción se han registrado


históricamente rendimientos en la reacción de conversión del 84 % en promedio
con una desviación normal de 3,5 %. Se han efectuado 16 ensayos a nivel de
planta piloto utilizando un catalizador modificado y se ha obtenido un promedio de
rendimientos del 85,6%. ¿Puede concluirse que el empleo del catalizador
modificado trae un aumento significativo del rendimiento de la reacción a un nivel e
significancia de 0,05 y a un nivel 0,01 ?

Situación antigua Situación modificada


_
 : 84% R : 85,6%

 : 3,5 R :  /n = 3,5/16 = 0,875


157

Hipótesis nula :

Ho : El aumento en el rendimiento que genera el catalizador modificado no es


significativo.
_
R =  = 84

Hipótesis alterna:

H1 : Se ha producido un aumento significativo en el rendimiento con el uso del


catalizador modificado.

_
R >  = 84 ensayo unilateral cola superior

Puesto que lo que interesa es decidir sobre un mejoramiento, el contraste se hace


mediante prueba unilateral o de una cola superior.

Nivel  =0,05

f(z)

A R
0,95
0,05

Zc =1,65 Ze =1,83 Z

R- 85,6 - 84
Ze = ------- = -------------- = 1,83 = Ze = 1,83 > 1,65
R 0,875

Por lo tanto al nivel de significatividad de 0,05 se rechaza Ho, es decir que se


acepta H1 y el uso del catalizador modificado trae un aumento significativo del
rendimiento.

Nivel  =0,01 Si Zc = 2,33


158

f(z)

A R

0,99 0,01

Ze=1,83, Zc=2,33

Ze = 1,83 < 2,33

Por lo tanto al nivel de significatividad 0,01 no puede rechazarse Ho y quiere decir


que el aumento en el rendimiento que trae el catalizador modificado no es
significativo.

Aunque parece no haber una conclusión definitiva, el resultado a nivel de


significatividad 0,05 apoya la decisión de que se hagan nuevos ensayos ya que el
aumento del rendimiento no es descartable.

EJEMPLO: Una operación de lixiviación de mineral que contiene NaCl ha


funcionado normalmente durante mucho tiempo con valores en cuanto a la
concentración de NaCl en la salmuera resultante de:
_
XA = 292,11 g/L sA = 3,045 g/L

valores que han sido comprobados mediante el análisis a 100 muestras.

Se pretende modificar la operación introduciendo una molienda previa al mineral,


encaminada a elevar la concentración de NaCl. La inversión en las instalaciones
de molienda solamente se justificaría económicamente si hay una aumento en la
concentración de salmuera resultante supere los 10 g/L. 80 ensayos con molienda
realizados a nivel de planta piloto han dado los siguientes resultados:
_
XB = 305,42 g/L sB = 4,8 g/L

¿ Se justifica con base en estos datos y a niveles de significatividad  = 0,05 y 


= 0,01 la inversión en las instalaciones de molienda ?
159

Situación actual Situación nueva

A : B :
nA = 100 nB = 80
_ _
XA = 292,11 g/L XB = 305,42 g/L

sA = 3,04 g/L, sB = 4,80 g/L

sA2 = 9,24 sB 2 = 23,04

Hipótesis nula.

Ho : La diferencia de las medias entre la operación con molienda y la operación


actual es estadísticamente de 10g/L.

( B - A) = 10 g/L

Hipótesis alterna.

H1 : La diferencia de las medias entre la operación con molienda y la operación


actual supera significativamente el valor de 10 g/L

(B - A) > 10 g/L

La comparación se cataloga como un contraste de hipótesis unilateral sobre


diferencia de medias que se define mediante el uso de la distribución normal.

f(z)

A R

(1-) 

zc Z
160

_ _
(XB - XA) - (B -A) (305,42 - 292,11) - (10)
Ze = ----------------------- = ------------------------------------- = 5,37

Ze = 5,37 > Zc = 1,65 a nivel 0,05

Ze = 5,37 > Zc = 2,33 a nivel 0,01

Se rechaza Ho con ambos niveles de significancia y por lo tanto se acepta H1. Es


decir que la diferencia de las medias poblacionales supera significativamente el
valor requerido de 10 gramos por litro en la salmuera obtenida y en consecuencia
se justifica la inversión en las instalaciones de molienda.

EJEMPLO: Para probar los efectos de un nuevo fertilizante sobre una producción de
cereales, un lote de terreno se divide en 60 cuadros de igual área, todas las
porciones tienen idénticas condiciones de suelo, exposición a la luz del sol etc. El
nuevo fertilizante se aplicó a 30 cuadros y el antiguo se aplicó a los restantes. El
número promedio de cargas cosechadas por cuadro de terreno empleando el nuevo
fertilizante fue de 18,2 con una desviación normal de 0,63 cargas. Los
correspondientes valores de media y desviación normal empleando el fertilizante
antiguo fueron de 17,8 y 0,54 cargas.
Evaluar la hipótesis de que el nuevo fertilizante es mejor que el antiguo,
empleando un nivel de significancia de: a) 0,05 (Zc:1,65) b) 0,01 (Zc: 2,33)

_ _
(XB - XA) (18,2 – 17,8)
Ze = ----------------------- = ---------------------------- = 2,64

Ho: B = A
H1: B > A
161

2,64>1,65 se rechaza la hipótesis nula de igualdad y se acepta a una significancia


de 0,05 que el nuevo fertilizante produce un mayor rendimiento en la obtención de
la cosecha

2,64>2,33 se rechaza la hipótesis nula de igualdad y se acepta a una significancia


de 0,01 que el nuevo fertilizante produce un mayor rendimiento en la obtención de
la cosecha

EJEMPLO: En una escuela elemental un examen de deletreo dio una calificación


promedio de 72 para 32 niños con una desviación normal de 8, mientras que la
calificación promedio para 36 niñas fue de 75 con una desviación normal de 6.
Someter a prueba la hipótesis de que las niñas son mejores en deletreo que los
niños con niveles de significancia de a) de 0,05,b) de 0,01.

_ _
(Xniñas – Xniños) (75 – 72)
Ze = ----------------------- = ---------------------------- = 1,73

Ho: ẋniñas = ẋniños


H1: ẋniñas > ẋniños

1,73 > 1,65 se rechaza la hipótesis nula de igualdad y se acepta a una significancia
de 0,05 que las niñas son mejores en deletreo que los niños.

1,73< 2,33 se acepta la hipótesis nula de igualdad ya que no hubo evidencia a una
significancia de 0,01 que las niñas son mejores en deletreo que los niños.

También podría gustarte