Introducción al muestreo en bioestadística

Bioestadística Mgt. Rina M.
Zamalloa Cornejo
INTRODUCCIÓN AL MUESTREO
La investigación científica es la respuesta del hombre frente a un problema, ya sea
para resolverlo o para conocer su naturaleza o efectos. Sea cual fuere el problema o
problemas a estudiar o la clase de investigación a realizar no son sucesos aislados, más
bien están interrelacionadas por lo que es necesario la intervención del ingenio del
investigador, por lo que este tiene tres alternativas:
1- Estudiar un caso:
Es cuando el estudio de un ejemplar permite generalizar sus características al total.
2- Estudiar la totalidad de casos:
La observación de la totalidad de los casos, teóricamente sería el procedimiento
perfecto y sus conclusiones tener consistencia absoluta; sin embargo en la práctica es casi
siempre imposible y sobre todo innecesario, tanto desde el punto de vista científico como
del económico.
Es decir no necesitamos tomar toda la sopa para saber si está demasiado salada; si
se movió bastante, basta con probar una cucharada
3- Elegir un grupo que represente a la totalidad de los casos:
Este grupo elegido se llama muestra a partir del cual podemos conseguir informaciones
precisas sobre la naturaleza y comportamiento de la población.
En cuanto al período que abarca el estudio, la investigación puede ser prospectiva
o retrospectiva; de acuerdo con el tiempo y la evolución del fenómeno puede ser
transversal o longitudinal; sobre la base de los fines de la investigación ésta puede ser
descriptiva o comparativa y finalmente de acuerdo con la actitud del investigador puede
ser de observación o experimentación. Estas clasificaciones no son exhaustivas ni
excluyentes, muy por el contrario, una investigación puede combinar alguno de estos
criterios.
DEFINICIÓN.-
Es un procedimiento científico para la obtención de muestras estadísticamente
significativas de una población que permitirá estimar los parámetros poblacionales con
un grado de confianza fijado previamente.
Es la teoría que se utiliza para estudiar las relaciones existentes entre la población
y las muestras extraídas de la misma, es decir permite conocer con exactitud la naturaleza
y comportamiento de una población, partiendo de una muestra extraída de ella.
1
Bioestadística Mgt. Rina M. Zamalloa Cornejo
VENTAJAS DEL MUESTREO.-

Las ventajas del muestreo sobre el censo son:
- Por cubrir tan sólo una pequeña fracción de la población puede hacerse a un costo
relativamente reducido de tiempo y dinero.
- Mayor rapidez en la recolección y análisis de la información.
- La utilización de menor personal que en el censo, el cual puede ser mejor capacitado y
entrenado que nos permitirá conocer mayor información en el contenido.
OPERACIONES FUNDAMENTALES DEL MUESTREO:

Primera Operación Fundamental:
Un estudio por muestreo sea descriptivo, comparativo, prospectivo, retrospectivo,
transversal, longitudinal o experimental; requiere establecer con la suficiente anticipación
el tamaño de la muestra, para no incurrir en errores por defecto que puedan afectar la
calidad del estudio o errores por exceso que pueden ocasionar dispendios en los recursos
humanos y materiales. De aquí que la determinación del tamaño de la muestra es la base
para el diseño muestral.
Segunda Operación Fundamental:

Corresponde a la selección de la muestra utilizando el método o técnica muestral
que más convenga a la naturaleza de la población en estudio.
Tercera Operación Fundamental:

Se pasa de los estadísticos a los parámetros, esto es se estima los parámetros
recordando que la muestra es sólo un medio para conocer la población.
REQUISITOS DE UNA MUESTRA:

Debe obtener información sobre la población de la que se extrajo la muestra.
Una muestra es aceptable desde el punto de vista estadístico cuando representa a
la población y cuando responde a un plan viable, es decir cuando es de fácil ejecución y
eficiente y proporciona mayor información al menor costo.
Para prever las decisiones a tomar en cada caso, se debe diseñar una muestra que
permita planificar minuciosamente cada una de las etapas que conlleva el proceso, sobre
la base de la lógica estadística y un riguroso control que garantice la calidad de los
resultados.
2
DEFINICION:
- Unidad de Análisis:
O elemento de la población, es la unidad para la que se debe obtener información
estadística. En un estudio puede haber más de una unidad de análisis.
- Población:
O universo es la totalidad de individuos o elementos en las cuales puede presentarse
determinada característica susceptible de ser estudiada, cuantificable en un período y
lugar determinado. Puede ser la población finita o infinita.
- Marco de Muestreo:
Es la población definida, delimitada con fines de estudio de donde se extraerá la muestra.
- Unidad de Muestreo:
Es la unidad seleccionada del marco de muestreo.
- Parámetro:
Parámetro es una medida resumen usada para describir alguna característica de toda la
población, para determinar su valor es necesario utilizar la información de la población
por lo tanto, las decisiones se tomarán con certidumbre total.
Los parámetros más usados son:
Media poblacional ()
Varianza poblacional  2( )
Proporción poblacional ( p )
- Estadístico:
O estadígrafo, es una medida usada para describir alguna característica de la
muestra y la toma de decisiones contiene un grado de incertidumbre.
Los estadísticos más usados son:
Media muestral ( X )
Varianza muestral ( S 2 )
Proporción muestral ( p̂ )
3
- Error (  ) :
Es la diferencia entre el valor de un estadístico y el del parámetro correspondiente.

Diversas causas la ocasionan las que, las diferencian en muestrales y no muestrales.
Los métodos de muestreo pueden ser probabilísticos y no probabilísticos:
MUESTREO NO PROBABILÍSTICO O EMPÍRICO:

Es un proceso de selección sin base científica, dependiendo únicamente del juicio o
criterio del investigador.
Los métodos no probabilísticos son:
- Muestreo intencional.
- Muestreo sin norma.
- Muestreo accidental.
- Muestreo arbitrario.
- Muestreo de voluntarios.
MUESTREO PROBABILÍSTICO:
Se basa en la teoría de las probabilidades y como tal considera la probabilidad de
selección de cada unidad de muestreo, así como todo el proceso establecido para la
selección de las muestras. Los métodos de muestreo probabilístico más usados son:
- Muestreo Aleatorio Simple
- Muestreo Aleatorio Sistemático
- Muestreo Estratificado
- Muestreo por Conglomerados
MUESTREO ALEATORIO SIMPLE (MAS)

Es el muestreo probabilístico por excelencia, tiene como premisa fundamental que
todos y cada uno de los elementos de la población tienen la misma probabilidad de ser
incluidos en la muestra o si se quiere, cada una de las posibles muestras de la población
tiene la misma probabilidad de ser seleccionadas.
Ejm. Se toma una población de 10 elementos, numerados del 1 al 10 para extraer
una muetra de tamaño 3. Se escribe los números en 10 fichas iguales y se coloca en una
urna. Luego se selecciona una ficha por vez, sin reemplazo hasta completar 3 fichas.
4
Las probabilidades asociadas a la selección de cada una de las 3 fichas son 1/10
para la primera, 1/9 para la segunda y 1/8 para la tercera.
Para conocer la probabilidad de extraer una muestra que contenga 3 elementos
cualesquiera tal como 2,4,6 se extrae primero cualquiera de los tres números con una
probabilidad de 3/10, luego se extrae cualquiera de las 2 restantes con una probabilidad
de 2/9 y por último el tercero con una probabilidad de 1/8, entonces la probabilidad total
para obtener una muestra de tres elementos es:
3 2 1 1
----- x ---- x ---- = ------
10 9 8 120
de donde todas las muestras de tamaño 3 de una población de 10 elementos tienen 1/120
probabilidad de ser seleccionadas.
Generalizando tenemos que la probabilidad de obtener una muestra de tamaño n
de una población de tamaño N es igual a:
p = 1 / N Cn
Si el muestreo es con reemplazo, la población se torna infinita y una ficha puede
ser seleccionada más de una vez, entonces la probabilidad de que cada elemento sea
seleccionado es 1/N.
Si bien el procedimiento de las fichas y urnas es satisfactorio en la práctica es
reemplazado por la tabla de números aleatorios con la ventaja de reducir el trabajo y
asegurar de mejor forma que todos los elementos tengan la misma probabilidad de
selección.
Ejemplo
Se quiere estudiar la proporción de niños afectados por enfermedades pulmonares, para
lo cual se extrajo una muestra de tamaño 12 de una población de 836 niños. Enumere los
niños que serán considerados en la muestra.
Solución:
Se acude a la tabla de números aleatorios. Se elige primera fila onceava columna,
tomando números de tres cifras, luego se busca en el listado a los niños que corresponden
a esos números.
MUESTREO ALEATORIO SISTEMÁTICO

El muestreo aleatorio simple es un procedimiento de mucha confianza y muy
eficiente cuando los marcos de muestreo son pequeños, pero cuando estos marcos son
5
muy grandes y la muestra también; se utiliza el muestreo aleatorio sistemático. Por

ejemplo, se tiene una población de tamaño 240 y se quiere extraer una muestra de tamaño
20, para esto se calcula el intervalo definido por r = N/n = 240/20 = 12, luego se elegirá
el número de arranque; significando que de cada 12 elementos del marco se extraerá uno
para la muestra. En la mayoría de los casos el muestreo sistemático proporciona
resultados muy satisfactorios, asegurando sobre todo que la muestra esté distribuida a
través de todo el marco muestral.
Pero la pregunta es como sabemos que 20 debe ser el tamaño de la muestra que
debe ser extraída de una población de tamaño 240.
Para esto, se sabe que una de las operaciones fundamentales del muestreo es la
estimación de los parámetros, esto es, pasar de los estadísticos a los parámetros,
recordando que la muestra es sólo un medio para conocer la población.
ESTIMACIÓN DEL TAMAÑO DE LA MUESTRA

- Cuando la población es infinita o población finita y muestreo con reemplazo.
 
 LI = X − z0
IC ( )100 %
n
=
 LS = X + z 
 0
n

 = z0
n
z 02 02
n=
2

A( z 0 ) = ; z 0 se ve en la tabla normal estándar
2
 LI = X − 

IC (  )100 % = 
 LS = X + 

A = LS − LI = X +  − ( X −  ) = 2
6
- Cuando la población es finita y el muestreo es sin reemplazo:
 2  N − n
 LI = X − z0  
 n  N − 1  z 02 2 N
IC ( )100 % = n=
( N − 1) 2 + z 02 2
 2  N − n
 LS = X + z  
−
0
 n  N 1 

A( z 0 ) = ; z 0 se ve en la tabla normal estándar (Apéndice)
2
INTERVALO DE CONFIANZA PARA LA PROPORCIÓN

- Cuando la población es infinita o población finita y muestreo con reemplazo.
 pˆ ( 1 − pˆ )
 LI = pˆ − z0 z 02 p (1 − p )

IC ( p )100 %
n
= n=
 LS = pˆ + z pˆ ( 1 − pˆ ) 2
 0
n

2
- Cuando la población es finita y el muestreo es sin reemplazo:
 pˆ ( 1 − pˆ )  N − n 
 LI = pˆ − z0  
  N −1 z 02 p(1 − p) N
IC ( p )100 %
n
= n=
 LS = pˆ + z pˆ ( 1 − pˆ )  N − n  ( N − 1) 2 + z 02 p(1 − p)
  
 N −1
0
 n

2
Ejemplos
1. Se desea estimar la proporción de personas adultas que sufren afecciones bronquiales,
para ello se tomó una muestra piloto de 150 personas adultas en la que se encontró que
40 están afectadas.
a) ¿Cuál es el tamaño de la muestra con un error del 4%?
b) Con esta base y suponiendo que dicha ciudad tiene 4500 personas adultas, ¿cuál es el
tamaño de la muestra con un error del 4%?
Solución:
40
a) n0 = 150 x = 40  p = = 0, 267
150
7
 = 0,04
 0,95
A( z 0 ) = = = 0,475 ; entonces z 0 = 1,96
2 2
z02 p (1 − p )
n=
2
(1,962 )(0, 267)(1 − 0, 267)
= = 469,9  470
0, 042
b) N = 4500
z02 p(1 − p) N
n=
( N − 1) 2 + z02 p(1 − p )
(1,962 )(0, 267)(1 − 0, 267)(4500)

= = 425,56  426
(4500 − 1)(0, 042 ) + (1,962 )(0, 267)(1 − 0, 267)
2. Un médico investigador desea estimar la proporción de mujeres en edad madura que

fuman en exceso y que desarrollarán cáncer pulmonar en los siguientes cinco años. Se
sabe que el 40% de las mujeres maduras que hayan fumado por lo menos dos cajetillas
de cigarros al día desarrollan cáncer pulmonar. Cuál debe ser el tamaño de la muestra que
el investigador debe seleccionar, con una confianza del 95% de que la proporción
muestral se encuentre a no más de 0,08 unidades de la proporción verdadera?
MUESTREO ESTRATIFICADO
Este procedimiento es el indicado para poblaciones heterogéneas, considera la
variabilidad dentro de la población para extraer una muestra más precisa y eficiente que
los que se pueden obtener con el muestreo aleatorio simple o con el sistemático.
En el muestreo estratificado, las operaciones fundamentales del muestreo como
son la determinación del tamaño de la muestra y las estimaciones, se efectúan siguiendo
los siguientes pasos:
1. Estudio de la población para formar las subpoblaciones o estratos.
2. Cálculo del tamaño de la muestra estratificada.
3. Efectuar la afijación o asignación de la muestra para cada caso.
4. Seleccionar la muestra de cada estrato.
5. Estimación de los parámetros partiendo de los estadísticos encontrados.
8
La estratificación, supone un conocimiento profundo de la población en estudio

para formar el número adecuado de estratos sobre la base de criterios definidos y los
objetivos del estudio.
Los criterios pueden ser geográficos, técnicos, ocupacionales, económicos,
sociales, etc. cuidando que el número de estratos no sea muy grande para aliviar los
cálculos.
Se considera una variable categórica con h modalidades sobre la población: se
obtiene entonces una partición de la población en h subpoblaciones, categorías o clases.
L
Se denotan N1, ..., NL los tamaños de las subpoblaciones ( N =  N h ) .
h =1
Sea X la variable de interes,  y S 2 la media y varianza de X sobre la población,
 h y Sh2 la media y varianza de X sobre la subpoblación h, por lo que tendremos las

siguientes relaciones:
Nh
= h media de las medias de las clases
N
 ² =  ²entre +  ²dentro
donde:
N
 entre
2
=  h (  h -  )2 varianza de las medias de las clases
N
N
 dentro
2
=  h  h2 media de las varianzas de las clases
N
Es decir, la evaluación del proceso de estratificación se efectúa cuantificando la
intravarianza (varianza dentro de los estratos) y la intervarianza (varianza entre estratos).
Se trata de la descomposición de la media y de la varianza sobre una partición; se
utiliza mucho esta descomposición en el método estadístico llamado análisis de varianza.
Se realiza de manera independiente un muestreo aleatorio simple con
probabilidades iguales sin reemplazo en cada estrato. Sea n h el tamaño de la muestra del
estrato h, fh = nh / Nh , X h y S h2 la media y la varianza corregida de X sobre la muestra del
estrato h y n =  nh .
 h2
Sabemos que E[ X ] =  h y Var[X h ] = (1 - f h ) .
nh
Por los factores que intervienen, el cálculo del tamaño de muestra estratificada es
un tanto diferente al del MAS. Entre estos factores se tiene el número de estratos y el tipo
9
de afijación a emplear por lo que conviene considerar primero la afijación que en el

muestreo estratificado corresponde a la determinación de la muestra en cada estrato.
AFIJACION POR CUOTAS.-

Consiste en asignar una proporción de elementos en cada estrato.
AFIJACION PROPORCIONAL.-
Consiste en seleccionar en cada estrato la misma proporción de elementos que
marca el tamaño de la muestra y la población, es decir la tasa de muestreo n/N; por lo
tanto la afijación proporcional es sólo un repartimiento proporcional sobre la base de la
siguiente relación:
N h nh
=
N n
AFIJACION ÓPTIMA.-
Considera no sólo el tamaño del estrato, sino también la variabilidad dentro de
cada estrato, esto es la desviación estándar de la característica en la que estamos
interesados. Con este criterio la ecuación para determinar el tamaño de la muestra en cada
estrato es:
 N h h 
nh = n 
N  
 h h 
donde:
n es el tamaño de la muestra estratificada
nh es el tamaño de la muestra del estrato h
Nh es el tamaño del estrato h
 h es la desviación estándar del estrato h.
Cuando se trabaja con proporciones la ecuación es:
 N h p h (1 − p h ) 
nh = n 
  N p (1 − p ) 
 h h h 
donde ph es la proporción de la característica en estudio en el estrato h.
Muchos autores consideran esta afijación óptima como la de Neyman por ser el
autor que la desarrolló.
10
MUESTREO DE CONGLOMERADOS
Los tres métodos de selección de muestras que hasta aquí se han visto se aplican
a marcos de muestreo en los que las unidades de análisis están ordenadas y listadas para
la selección de la muestra. Esta situación no siempre se presenta en la práctica, pues no
siempre se dispone de una lista, cuya preparación puede tener un costo prohibitivo,
debiéndose por tanto recurrir al muestreo de conglomerados.
La conglomeración reduce la eficiencia del muestreo debido a que el error de
muestreo de una muestra de un tamaño dado es mayor que el error de muestreo de una
muestra no conglomerada del mismo tamaño, por lo que el ahorro de dinero puede ser
sólo aparente. En este método se debe buscar la menor homogeneidad posible dentro
(entre las unidades) de los conglomerados y la mayor homogeneidad entre los
conglomerados. Esto es lo contrario que lo que se debe buscar en el método de la
estratificación, en donde debe haber la mayor homogeneidad dentro (entre las unidades)
estratos y la menor homogeneidad posible entre los estratos.
En conclusión, el muestreo por conglomerados es eficaz solamente cuando los
conglomerados son numerosos y de pequeños tamaños, homogéneos entre ellos y cuyos
individuos en cada conglomerado son heterogéneos.
PRUEBA DE HIPÓTESIS
Las secciones anteriores han mostrado cómo se puede estimar un parámetro a
partir de los datos contenidos en una muestra. Puede encontrarse ya sea un sólo número
(estimador puntual) o un intervalo de valores posibles (intervalo de confianza). Sin
embargo, muchos problemas de ingeniería, ciencia, y administración, requieren que se
tome una decisión entre aceptar o rechazar una proposición sobre algún parámetro. Esta
proposición recibe el nombre de hipótesis. Este es uno de los aspectos más útiles de la
inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones,
pruebas o experimentos en el mundo de las ciencias, pueden formularse como problemas
de prueba de hipótesis.
Hipótesis estadística:
Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o
más variables aleatorias o poblaciones.
11
Es importante recordar que las hipótesis siempre son proposiciones sobre la población o
distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del
parámetro de la población especificado en la hipótesis nula se determina en una de tres
maneras diferentes:
• Puede ser resultado de la experiencia pasada o del conocimiento del proceso,
entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha
cambiado el valor del parámetro.
• Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso
bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la
teoría o modelo.
• Cuando el valor del parámetro proviene de consideraciones externas, tales como
las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En
esta situación, el objetivo usual de la prueba de hipótesis es probar el
cumplimiento de las especificaciones.
Un procedimiento que conduce a una decisión sobre una hipótesis en particular
recibe el nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis
dependen del empleo de la información contenida en la muestra aleatoria de la población
de interés. Si esta información es consistente con la hipótesis, se concluye que ésta es
verdadera; sin embargo, si esta información es inconsistente con la hipótesis, se concluye
que esta es falsa. Debe hacerse hincapié en que la verdad o falsedad de una hipótesis en
particular nunca puede conocerse con certidumbre, a menos que pueda examinarse a toda
la población. Usualmente esto es imposible en muchas situaciones prácticas. Por tanto, es
necesario desarrollar un procedimiento de prueba de hipótesis teniendo en cuenta la
probabilidad de llegar a una conclusión equivocada.
La hipótesis nula, representada por H 0 , es la afirmación sobre una o más
características de poblaciones que al inicio se supone cierta (es decir, la "creencia a

priori").
La hipótesis alterna, representada por H1 , es la afirmación que contradice a H 0 y
muchas veces esta es la hipótesis del investigador, es la que se quiere probar.

La hipótesis nula se rechaza en favor de la hipótesis alterna, sólo si la evidencia
muestral sugiere que H 0 es falsa. Si la muestra no contradice decididamente a H 0 , se
continúa creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones

posibles de un análisis por prueba de hipótesis son rechazar H 0 o no rechazar H 0 .
12
Prueba de una Hipótesis Estadística

Para tomar decisiones estadísticas, se requieren de las dos hipótesis: la hipótesis
nula H 0 y la hipótesis alterna H1 referidas a un parámetro  . La prueba de una hipótesis
estadística es un proceso que nos lleva a tomar una decisión de rechazar o no rechazar la
hipótesis nula H 0 en contraposición de la hipótesis alterna H1 a un nivel de significación
y con base en los resultados de una muestra aleatoria seleccionada de la población en

estudio.
La hipótesis H 0 es la hipótesis que se plantea y se debe probar. El no rechazo de
la hipótesis nula H 0 significa que los datos de la muestra no proporcionan evidencia
suficiente para refutarla. El rechazo significa que los datos de la muestra proporcionan
evidencia suficiente de que la hipótesis nula es falsa.
Es una regla que cuando los valores experimentales son observados nos conducen
a una decisión a rechazar o no rechazar la hipótesis bajo consideración a la luz de la
información proporcionada por una muestra extraída de la población bajo estudio.
Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de
rechazo o no de la hipótesis nula H 0 se puede incurrir en error.
Tipos de errores
En la prueba de hipótesis pueden cometerse dos tipos posibles de errores:
• El error tipo I se define como el rechazo de la hipótesis nula H 0 cuando ésta es
verdadera.
• El error tipo II se define como la aceptación de la hipótesis nula cuando ésta es
falsa.
Por tanto, al probar cualquier hipótesis estadística, existen cuatro situaciones
diferentes que determinan si la decisión final es correcta o errónea.
Decisión Ho es verdadera Ho es falsa
Aceptar Ho Correcta Error tipo II
Rechazar Ho Error tipo I Correcta
Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad

de uno por lo general tiene como resultado un aumento en la probabilidad del otro.
13
Es obvio que, quien toma las decisiones quiera reducir al máximo las
probabilidades de cometer cualquiera de estos dos tipos de errores, esto no es fácil debido
a que las probabilidades de cometer ambos tipos de errores son inversamente
proporcionales, para cualquier prueba dada, sin embargo, un aumento en el tamaño
muestral n reducirá ambos tipos de errores de forma simultánea.
Nivel de significación
El nivel de significación o tamaño de la región crítica representado por  , se
define como la probabilidad de cometer error tipo I, es decir:
 = PError tipo I  = Prechazar H0 / H0 es verdadera
Los valores que se emplean frecuentemente para  son próximos a cero (0,01;
0,02; 0,05; …).
La probabilidad de cometer error tipo II está representada por  :
 = P  Error tipo II  = P  Aceptar H 0 / H 0 es falsa 
El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo

I, siempre se puede reducir al ajustar el o los valores críticos.
Tipos de pruebas de hipótesis

Existen tres tipos principales de pruebas, cada uno de los cuales es identificado
por la forma en que se formulen H 0 y H1 . Las pruebas pueden ser unilateral o bilateral.
1. Prueba unilateral o de una cola, estas pueden ser:
a. Prueba de cola inferior:
H 0 :   0 H1 :   0
b. Prueba de cola superior
H 0 :   0 H1 :   0
2. Prueba bilateral o de dos colas
H 0 :  = 0 H1 :   0
Los pasos que se deben seguir para realizar una prueba de hipótesis son:
1. Formular las hipótesis nula y alterna de acuerdo al problema
Prueba unilateral o de una cola
• Prueba unilateral de cola inferior o tipo I:
14
H 0 :   0 H1 :   0
• Prueba unilateral de cola superior o tipo II:

H 0 :   0 H1 :   0
Prueba bilateral o de dos colas tipo III

H 0 :  = 0 H1 :   0
2. Establecer el nivel de significación 
3. Elegir el estadístico de prueba apropiado, cuya distribución muestral es conocida,
suponiendo que la hipótesis nula H 0 es verdadera y utilizar los datos muestrales.
4. Establecer la región crítica determinando el valor tabular o punto crítico.

5. Conclusión.
PRUEBAS DE HIPÓTESIS PARA LA MEDIA

El promedio aritmético poblacional es un indicador muy importante, por lo tanto,
frecuentemente se desea probar si dicho promedio ha permanecido igual, ha aumentado
o disminuido. A través de la prueba de hipótesis se determina si la media poblacional es
significativamente mayor o menor que algún valor supuesto.
Supongamos que de una población normal con media desconocida  y varianza 2
conocida se extrae una muestra ( X 1 , X 2 , ...., X n ) de tamaño n; entonces para hacer
pruebas de hipótesis con respecto a la media poblacional  , se siguen los siguientes pasos
Primer Caso: VARIANZA POBLACIONAL CONOCIDA, MUESTRA GRANDE

1.- Formular la prueba de hipótesis:
H 0 :   0 H 0 :   0 H 0 :  = 0
H1 :    0 H1 :    0 H1 :    0
I II III
2.- Establecer el nivel de significación  .
( X − 0 ) n
3.- Estadístico de Prueba: zc =

4.- Establecer la Región Crítica o Región de Rechazo.

Tipo I: H1 :   0 A ( z0 ) = 0,5 −  , z 0 : ver en la tabla Normal Estándar
15
Tipo II: H1 :   0 A ( z0 ) = 0,5 −  , z 0 : ver en la tabla Normal Estándar
Tipo III: H1 :   0 A ( z0 ) = 0,5 −  2 , z 0 : ver en la tabla Normal Estándar
5.- Conclusiones:
Tipo I: Se acepta H 0 si zc  − z0 y se rechaza H 0 si zc  − z0
Tipo II: Se acepta H 0 si zc  z0 y se rechaza H 0 si zc  z0
Tipo III: Se acepta H 0 si − z0  zc  z0 y se rechaza H 0 si zc  − z0 o zc  z0
Segundo Caso: VARIANZA POBLACIONAL DESCONOCIDA, MUESTRA

PEQUEÑA
Sea ( X 1 , X 2 , ...., X n ) una muestra aleatoria de tamaño n obtenida de una población
normal con parámetros  y  2 desconocida, para someter a prueba de hipótesis:
16
H 0 :   0 H 0 :   0 H 0 :  = 0
H1 :    0 H1 :    0 H1 :    0
I II III
( X − 0 ) n
3.- Estadístico de Prueba: tc =
S
4.- Región Crítica

Tipo I: H1 :   0 t0 = t ( ; n − 1gl ) (Prueba de una cola)
Tipo II: H1 :   0 t0 = t ( ; n − 1gl ) (Prueba de una cola)
Tipo III: H1 :   0 t0 = t ( ; n − 1gl ) (Prueba de dos colas)
5.- Conclusiones:
Tipo I: Se acepta H 0 si tc  −t0 y se rechaza H 0 si tc  −t0
Tipo II: Se acepta H 0 si tc  t0 y se rechaza H 0 si tc  t0
Tipo III: Se acepta H 0 si −t0  tc  t0 y se rechaza H 0 si tc  −t0 o tc  t0
PRUEBAS DE HIPÓTESIS PARA LA VARIANZA

Con frecuencia nuestro interés está en el parámetro de variabilidad, en cuyo caso podemos
hacer las pruebas sobre un valor específico de la varianza poblacional o que se desee
comprobar si la variación o dispersión de una variable ha tenido alguna modificación, lo
cual se hace con la prueba de hipótesis para la varianza.
H 0 : 2   2 0 H 0 : 2   2 0 H 0 : 2 =  2 0
H1 : 2   2 0 H1 : 2   2 0 H1 : 2   2 0
I II III
( n − 1) S 2
3.- Estadístico de Prueba: yc =
 02

Tipo I: H1 : 2   02 y0 =  2 (1 −  ; n − 1gl )
Tipo II: H1 : 2   02 y0 =  2 ( ; n − 1gl )
Tipo III: H1 : 2   02 y1 =  2 (1 −  2; n − 1gl ) ; y2 =  2 ( 2; n − 1gl )
17
5.- Conclusiones:
Tipo I: Se acepta H 0 si yc  y0 y se rechaza H 0 si yc  y0
Tipo II: Se acepta H 0 si yc  y0 y se rechaza H 0 si yc  y0
Tipo III: Se acepta H 0 si y1  yc  y2 y se rechaza H 0 si yc  y1 o yc  y2
El supuesto de varianzas iguales que se hace al comparar las medias de dos poblaciones,
deberá ahora probarse mediante la estadística F
PRUEBAS DE HIPÓTESIS PARA LA HOMOGENEIDAD DE VARIANZAS

H 0 : 12 =  22 H1 : 12   22

S2
3.- Estadístico de Prueba: f c = 1
S 22
4.- Establecer la Región Crítica

H1 : 12   22 ; f 0 = F  ; ( n1 − 1, n2 − 1) gl 
5.- Conclusión
Se acepta H 0 si fc  f 0 y se rechaza H 0 si fc  f 0
PRUEBAS DE HIPÓTESIS PARA DIFERENCIA DE MEDIAS

Se tienen dos poblaciones y se toman muestras aleatorias independientes de tamaños n 1
y n 2 , se puede comparar el comportamiento de dichas poblaciones a través de los
promedios.
Primer Caso: VARIANZAS POBLACIONALES CONOCIDAS, MUESTRAS

GRANDES;
H 0 : 1  2 H 0 : 1  2 H 0 : 1 = 2
H1 : 1  2 H1 : 1  2 H1 : 1  2
I II III
18
X1 − X 2
3.- Estadístico de Prueba: zc =
 12  22
+
n1 n2

Tipo I: H1 : 1   2 A ( z0 ) = 0,5 −  , z 0 : ver en la tabla Normal Estándar
Tipo II: H1 : 1  2 A ( z0 ) = 0,5 −  , z 0 : ver en la tabla Normal Estándar
Tipo III: H1 : 1  2 A ( z0 ) = 0,5 −  2 , z 0 : ver en la tabla Normal Estándar
5.- Conclusiones:
Tipo I: Se acepta H 0 si zc  − z0 y se rechaza H 0 si zc  − z0
Tipo II: Se acepta H 0 si zc  z0 y se rechaza H 0 si zc  z0
Tipo III: Se acepta H 0 si − z0  zc  z0 y se rechaza H 0 si zc  − z0 o zc  z0
Segundo Caso: VARIANZAS POBLACIONALES DESCONOCIDAS SE SUPONEN

HOMOGENEAS; MUESTRAS PEQUEÑAS
H 0 : 1  2 H 0 : 1  2 H 0 : 1 = 2
H1 : 1  2 H1 : 1  2 H1 : 1  2
I II III
3.- Estadístico de prueba
X1 − X 2 (n1 - 1)S12 + (n2 - 1)S22
tc = Sc =
1 1 n1 + n 2 - 2
Sc +
n1 n2

Tipo I: H1 : 1   2 t0 = t ( ; n1 + n2 − 2 gl ) Prueba de una cola
Tipo II: H1 : 1  2 t0 = t ( ; n1 + n2 − 2 gl ) Prueba de una cola
Tipo III: H1 : 1  2 t0 = t ( ; n1 + n2 − 2 gl ) Prueba de dos cola
5.- Conclusiones:
19
Tercer Caso: VARIANZAS POBLACIONALES DESCONOCIDAS SE SUPONEN NO

HOMOGENEAS; MUESTRAS PEQUEÑAS
H 0 : 1  2 H 0 : 1  2 H 0 : 1 = 2
H1 : 1  2 H1 : 1  2 H1 : 1  2
I II III
X1 − X 2
S12 S2
+ 2
n1 n2
4.- Establecer la Región Crítica

w t +w t S12 S 22
t0 = 1 1 2 2 donde w1 = y w2 =
w +w n1 n2
1 2
Tipo I: H1 : 1   2 −t0 : t1 = t ( ; n1 − 1gl ) y t2 = t ( ; n2 − 1gl ) Prueba de una cola
Tipo II: H1 : 1  2 t0 : t1 = t ( ; n1 − 1gl ) y t2 = t ( ; n2 − 1gl ) Prueba de una cola
Tipo III: H1 : 1  2 t0 : t1 = t ( ; n1 − 1gl ) y t2 = t ( ; n2 − 1gl ) Prueba de dos cola
5.- Conclusiones:
Para la diferencia de medias cuando las muestras están pareadas o relacionadas (misma
medición, misma unidad experimental, circunstancias diferentes) podemos usar la prueba
de diferencia de medias donde D = 1 − 2 . Sin embargo, debemos notar que la varianza
de la diferencia de medias lleva implícita la covarianza entre los estimadores X 1 y X 2
( 2
D =  12 +  22 − 2  1 2 )
Cuarto Caso: DIFERENCIAS PAREADAS O MUESTRAS RELACIONADAS

Ahora se desea realizar pruebas de hipótesis para la diferencia de dos medias cuando las
muestras extraídas de las poblaciones normales no son independientes y las varianzas
20
poblacionales no tienen por qué ser iguales. Es decir, supongamos que obtenemos una
muestra aleatoria de n pares de observaciones ( X 1 , Y1 ) ...... ( X n , Yn ) de poblaciones
normales con medias  X , y Y en donde ( X 1 , X 2 , ...., X n ) indica la muestra de la
población con media  X , y (Y1 , Y2 , ...., Yn ) indica la muestra de la población con media
Y .
En este caso podemos reducir la información a una sola muestra ( D1 , D2 , ...., Dn ) en
donde:
Di = X i − Yi , i = 1,...., n
y por las propiedades de la distribución normal, esta muestra

( D1 , D2 , ...., Dn ) procederá
también de una población normal de media:
 D = E ( D ) = E  X i − Yi  =  X −  y
y varianza desconocida,
 D2 ;.
La varianza poblacional
 D2 se puede estimar por la varianza muestral S D2 que sería la
varianza de las diferencias que constituyen la muestra:

1 n
 ( Di − D )
2
S D2 =
n − 1 i =1
Siendo
n
D i
D= i =1
n
Un estimador puntual de la media poblacional de las diferencias:
D =  X −  y
está dado por D .

H 0 : D  0 H 0 : D  0 H 0 : D = 0
H1 :  D  0 H1 :  D  0 H1 :  D  0
I II III
D n
SD
4.- Región Crítica
21
Tipo I: H1 : 1  0 t0 = t ( ; n − 1gl ) (Prueba de una cola)
Tipo II: H1 : D  0 t0 = t ( ; n − 1gl ) (Prueba de una cola)
Tipo III: H1 : D  0 t0 = t ( ; n − 1gl ) (Prueba de dos colas)
5.- Conclusiones:
DISEÑO EXPERIMENTAL
INTRODUCCIÓN.
Los modelos de “Diseño de experimentos” son modelos estadísticos clásicos cuyo
objetivo es averiguar si unos determinados factores influyen en la variable de interés y, si
existe influencia de algún factor, cuantificarla. Ejemplos donde habría que utilizar estos
modelos son los siguientes:
• En el rendimiento de un determinado tipo de máquinas (unidades producidas por día)

se desea estudiar la influencia del trabajador que la maneja y la marca de la máquina.
• Se quiere estudiar la influencia del tipo de pila eléctrica y de la marca en la duración
de las pilas.
• Una compañía telefónica está interesada en conocer la influencia de varios factores en
la variable de interés “la duración de una llamada telefónica”. Los factores que se
consideran son los siguientes: hora a la que se produce la llamada; día de la semana en
que se realiza la llamada; zona de la ciudad desde la que se hace la llamada; sexo del que
realiza la llamada; tipo de teléfono (público o privado) desde el que se realiza la llamada.
• Se quiere estudiar el rendimiento de los alumnos en una asignatura y, para ello, se
desean controlar diferentes factores: profesor que imparte la asignatura; método de
enseñanza; sexo del alumno
La metodología del diseño de experimentos se basa en la experimentación. Es conocido

que si se repite un experimento, en condiciones indistinguibles, los resultados presentan
variabilidad que puede ser grande o pequeña. Si la experimentación se realiza en un
laboratorio donde la mayoría de las causas de variabilidad están muy controladas, el error
22
experimental será pequeño y habrá poca variación en los resultados del experimento. Pero
si se experimenta en procesos industriales, administrativos, ... la variabilidad es grande
en la mayoría de los casos.
DEFINICION
Un experimento es una prueba o ensayo y un experimento diseñado es una prueba o serie
de pruebas en las cuales se inducen cambios deliberados en las variables de entrada de un
proceso o sistema de manera que sea posible observar e identificar las causas de los
cambios en la respuesta de salida.
El proceso o sistema bajo estudio puede representarse por medio del modelo.
Entonces podemos pensar que el proceso es una combinación de máquinas, métodos,

personas y otros recursos que transforman alguna entrada en una salida que tiene una o
más respuestas observables.
Las causas que influyen en la respuesta de un proceso pueden ser:
• Determinista: Conociendo las entradas se sabe el valor exacto de la salida.
• Aleatorio: La respuesta es variable en función de múltiples factores,
- Factores controlables: Causas que podemos especificar.
- Factores no controlables: Causas que no podemos determinar.
También un diseño experimental, es la distribución de tratamientos en las unidades
experimentales o viceversa, teniendo en cuenta las restricciones al azar con fines
específicos que tienden a disminuir el error experimental, es la secuencia completa de
pasos tomados de antemano para asegurar que se van a tener datos apropiados que
23
permitan un análisis objetivo y así obtener deducciones válidas con respecto al problema
bajo investigación.
La metodología del Diseño de Experimentos estudia cómo variar las condiciones

habituales de realización de un proceso empírico para aumentar la probabilidad de
detectar cambios significativos en la respuesta, de esta forma se obtiene un mayor
conocimiento del comportamiento del proceso de interés.
Unidad experimental
Es el objeto o entidad, al que se le aplica un tratamiento y en el que se mide, evalúa y
analiza el efecto del tratamiento. La unidad puede ser: una parcela, un paciente en un
hospital, una porción de masa, un surco para el cultivo de papas, etc.
Factor
Es todo procedimiento o variables cuyo efecto se desea medir y comparar con los otros
factores. Implica un conjunto particular de condiciones, que se debe imponer a una
unidad experimental dentro de los confines del diseño seleccionado con el objeto de medir
y comparar sus efectos. Los niveles de un factor son los tipos o grados específicos del
factor que se tendrán en cuenta en la realización del experimento.
Tratamiento
Es una combinación específica de los niveles de los factores en estudio. Son, por tanto,
las condiciones experimentales que se desean comparar en el experimento. En un diseño
con un único factor son los distintos niveles del factor y en un diseño con varios factores
son las distintas combinaciones de niveles de los factores.
Error Experimental
Es la medida de la variación existente entre observaciones de las unidades
experimentales tratadas en forma similar, en un diseño experimental se tiene una
variabilidad inherente a la unidad experimental, es decir son las variaciones provocadas
por las causas no asignables y otra variabilidad debida a los tratamientos y la suma de
estas dos variabilidades nos da la variabilidad total.
Un experimento se realiza por alguno de los siguientes motivos:
• Determinar las principales causas de variación en la respuesta.
• Encontrar las condiciones experimentales con las que se consigue un valor
extremo en la variable de interés o respuesta.
24
• Comparar las respuestas en diferentes niveles de observación de variables

controladas.
• Obtener un modelo estadístico-matemático que permita hacer predicciones de
respuestas futuras.
La utilización de los modelos de diseño de experimentos se basa en la experimentación y
en el análisis de los resultados que se obtienen en un experimento bien planificado. En
muy pocas ocasiones es posible utilizar estos métodos a partir de datos disponibles o datos
históricos, aunque también se puede aprender de los estudios realizados a partir de datos
recogidos por observación, de forma aleatoria y no planificada.
ANÁLISIS DE VARIANZA
Los modelos de ANVA son la herramienta fundamental para adentrarse en la naturaleza
de la variación de los acontecimientos; permiten discernir mejor las causas de los
fenómenos y los efectos de los factores involucrados. No solo lo introduce en la misma
Naturaleza de las cosas, sino que es la herramienta básica para el diseño de experimentos.
Toda vez que necesite buscar las causas que hayan descontrolado sus técnicas de
laboratorio o de producción, podrá usar la filosofía de estos modelos para realizar su
investigación.
El ANVA puede ser considerado como una manera de verificar si dos o más medias
muestrales fueron extraídas de una misma población o de poblaciones con el mismo valor
esperado. En consecuencia, cuando estas medias muestrales no sean coincidentes habrá
que suponer que provienen de poblaciones diferentes por el efecto causado por un factor
en estudio. Como por ejemplo, comparar las medias muestrales de un placebo versus las
medias de muestras con diferentes dosis de un medicamento. O bien, la comparación entre
sí de varias marcas comerciales, proveedoras de drogas o kits de medición, como además
comparar varios operadores, o equipos, o pipetas entre sí, etc.
Cuando se trabaja con dos muestras se usa el modelo de Student para muestras
independientes como se vio en los temas anteriores. El ANVA es un método más general,
que se extiende a más de dos muestras y se puede demostrar que coincide con Student si
se aplica a solo dos muestras. Es decir, el modelo de Student es un caso particular del
ANVA.
Estos modelos desarrollados por R. A. Fisher a principios de este siglo, tienen una
distribución teórica esperada: la función F, tabulada por G. W. Snedecor.
25
Sir Ronald Aylmer Fisher, matemático inglés nacido en

Londres el 17 de Febrero de 1890 y fallecido en Adelaida,
Australia, el 29 de Julio de 1962.
El análisis de varianza es la técnica mediante el cual se

mide los efectos de los tratamientos, puesto que
descompone la varianza total en diferentes fuentes de
variabilidad definida por el modelo.
Si se desea comparar a tratamientos o niveles de un factor único, la respuesta que se
observa en cada uno de los a tratamientos es una variable aleatoria.
Datos Típicos para un Experimento Unifactorial
1 2 ….. j ….. n Total

T1 y11 y12 ….. y1 j ….. y1n y1•
T2 y21 y22 ….. y2 j ..... y2n y2 •
.
.
.
Ti yi1 yi 2 ….. yij ….. yin yi•
.
.
.
Ta ya1 ya2 ….. yaj ….. yan ya•
DISEÑO COMPLETAMENTE ALEATORIZADO
Es el diseño experimental más sencillo, es aquel en el que los tratamientos están

asignados completamente al azar a las unidades experimentales.
La objeción principal a los diseños completamente al azar estriba en su grado de
precisión. Ya que la aleatorización, no se restringe en ninguna forma para asegurar que
las unidades que reciben un tratamiento, sean similares a aquellas que reciben otro
26
tratamiento, toda la variación que existe entre las unidades pasa a formar parte del
error experimental.
a) Cuando el material experimental es homogéneo.
b) Donde es posible la pérdida de unidades experimentales.
c) Cuando el material experimental es pequeño, por eso su uso en condiciones de
campo es limitado.
CARACTERÍSTICAS
- Los tratamientos se distribuyen al azar en todas las unidades experimentales y el
número de repeticiones o unidades por tratamiento puede ser igual o diferente.
- Este diseño es muy útil cuando las unidades experimentales tiene una variabilidad
uniformemente repetida.
VENTAJAS
a) Este diseño es fácil de planear.
b) Permite el máximo número de grados de libertad para el error.
c) Su análisis es sencillo.
d) Puede utilizarse desigual número de repeticiones sin complicar el análisis.
DESVENTAJAS
1.- La principal desventaja es que es más apropiado para pequeño número de
tratamiento y para un material experimental homogéneo y uniformemente
repartido.
2.- El error experimental incluye toda la variabilidad posible debido a otros factores.
MODELO ESTADÍSTICO LINEAL PARA EL DISEÑO COMPLETAMENTE

ALEATORIZADO
El modelo estadístico del diseño completamente aleatorizado es:
yij =  +  i +  ij con i = 1, 2, ..., a j = 1, 2, ..., n
donde:
yij : representa la j – ésima observación del tratamiento i
 : media de la población total

 i : efecto del tratamiento i – ésimo
27
εij: representa al error experimental ó componente aleatorio del error.
Análisis del Modelo de Efectos Fijos

El modelo estadístico describe situaciones con respecto al efecto de los tratamientos, en
este caso particular los tratamientos podrían haber sido seleccionados específicamente
por el experimentador.
En esta situación, se desea probar hipótesis sobre las medias de los tratamientos y las
conclusiones se aplican solo a los niveles del factor considerados en el análisis.
SUPOSICIONES PARA EL DISEÑO COMPLETAMENTE ALEATORIZADO
a) Cada yij que se observa constituye una muestra aleatoria de una de las
poblaciones representadas.
b) Las observaciones yij también son independientes y se encuentran distribuidos
con  +  i y varianza  2 .
c) Los εij son independientes y se encuentran normalmente distribuidos con media

cero y varianzas iguales, es decir:
 ij ~ N ( 0,  2 ) i, j
d) Los tratamientos en este caso son de efectos fijos, más aun los efectos de los
tratamientos se consideran como desviaciones con respecto a la media general, es decir
t

i =1
i =0
HIPÓTESIS DEL DISEÑO COMPLETAMENTE ALEATORIZADO

Se desea probar la igualdad de las medias de los tratamientos:
H 0 : 1 = 2 = .... = a
H1 : al menos algún  i diferente
Puesto que los efectos son considerados desviaciones de la media general entonces:
i =  +  i
Una forma equivalente de expresar las hipótesis son:
H0: 1 =  2 =  3 = ... =  a = 0
H1:  i ≠ 0 para algún i = 1, 2, ..., a
28
CÁLCULO Y ANÁLISIS DE VARIANZA PARA EL DISEÑO

COMPLETAMENTE ALEATORIZADO
El análisis de varianza consiste en dividir la variación total según sus orígenes de
variación y consideran cada uno de ellos como estimadores de  2 , teniendo en cuenta los
supuestos que acompañan al diseño y considerando que se cumple la hipótesis nula, es
decir que todas las medias son iguales, esto es que las poblaciones se centran en un mismo
punto (la media común) y solo restara demostrar que poseen la misma varianza, caso
contrario Ho es falsa porque será diferente.
Ahora describiremos este método y para ello utilizaremos la siguiente simbología
n
Sea. yi . =  yij ; el total del i – ésimo tratamiento
j =1
a n a
y.. =  yij =  yi . ; el total de todas las observaciones
i =1 j =1 i =1
además:
yi .
yi . = ; promedio de la observación del i – ésimo tratamiento.
n
y..
y .. = ; promedio de todas las observaciones.
an
La suma total de desvíos al cuadrado puede dividirse del modo siguiente
2
 ( yij − y..) =  ( yi. − y..) + ( yij − yi. )

a n a n
2
i =1 j =1 i =1 j =1
=  ( yi . − y ..) + 2 ( yi . − y ..) ( yij − yi .) + ( yij − yi .) 

a n
2 2
i =1 j =1  
=  ( yi . − y ..) + 2 ( yi . − y ..) ( yij − yi .) +  ( yij − yi .)

a n a n a n
2 2
i =1 j =1 i =1 j =1 i =1 j =1
De donde el producto cruzado: 2 ( yi . − y ..) ( yij − yi .) = 0

a n
i =1 j =1
Por lo tanto
 ( y − y ..) =  ( yi . − y ..) +  ( yij − yi .)

a n a n a n
2 2 2
ij
i =1 j =1 i =1 j =1 i =1 j =1
Donde :
SCT =  ( yij − y ..) ; suma de cuadrados total

a n
2
i =1 j =1
29
a n
SC =  ( yi . − y ..) ; suma de cuadrados debido a los tratamientos
2
i =1 j =1
SCE =  ( yij − yi .)
a n
2
; suma de cuadrados debido al error
i =1 j =1
La descomposición de la suma de cuadrados es:

SCT = SC + SCE
Desarrollando la suma de cuadrados de cada uno de los términos
yi .2 y 2 ..
a
PARA LOS TRATAMIENTOS: SC =  −
i =1 n N
a n 2
y ..
PARA EL TOTAL SCT =  yij 2 −
i =1 j =1 N
Donde N = an
PARA EL ERROR
Puesto que SCT = SC + SCE entonces SCE = SCT − SC
ANÁLISIS DE LOS GRADOS DE LIBERTAD PARA EL DISEÑO

COMPLETAMENTE ALEATORIZADO
Cuando un estadístico se usa para estimar un parámetro, el número de grados de libertad

disponible depende de las restricciones impuestas sobre las observaciones, por cada
restricción impuesta se pierde un grado de libertad; es así que en este diseño en la suma
de cuadrados del total se estima y.. por tanto tendrá (an-1) grados de libertad; la suma de
cuadrados de los tratamientos tiene (a-1) grados de libertad. Además:
glSCT = glSC + glSCE
de donde:
glSCE = glSCT − glSC
glSCE = ( an − 1) − ( a −1)
glSCE = a ( n −1)
ESTADÍSTICO DE PRUEBA PARA EL DISEÑO COMPLETAMENTE

ALEATORIZADO
La suma de cuadrados divididos entre sus grados de libertad da origen a lo que se conoce
como cuadrados medios; entonces:
30
SC SC
CM = = ; cuadrado medio del tratamiento
gl ( SC ) a − 1
SCE SCE
CME = = ; cuadrado medio del error
gl ( SCE ) t ( r − 1)
SC SCE
, 2 son variables aleatorias independientes con (t – 1) y t(r – 1) grados de libertad
2

respectivamente.
a
n i2
y E CM   =  2 + i =1 indica que el CM es un estimador sesgado de  2 y
a −1
E CME  =  2 indica que
CME es un estimador insesgado de  2 .
El estadístico de prueba apropiado es el cociente de los cuadrados medios:

SC
CM 
FC = = a −1
CME SCE
a (n − 1)
El cual tiene una distribución F con ( a − 1, a(n − 1) ) grados de libertad.
DECISIÓN:
CM 
Puesto que FC = y F0 = F  , (a − 1), a (n − 1) 
CME
a) Si FC  F0 no se rechaza la hipótesis nula
b) Si FC  F0 entonces se rechaza la hipótesis nula, es decir se acepta la hipótesis alterna;
además para  = 0,05 se dice que la diferencia es significativa “*” y para  = 0,01 se
dice que la diferencia es altamente significativa “**”.
El cuadro que refleja la metodología se denomina cuadro de análisis de varianza
(ANVA) y es el siguiente :
31
FUENTES GRADOS DE SUMA DE CUADRADOS FC
DE VARIABILIDAD LIBERTAD CUADRADO MEDIOS

S
TRATAMIENTO a −1 SC CMTr =
SC
FC =
CM 
a −1 CME
ERROR a(n − 1) SCE CME =

SCE
a ( n − 1)
TOTAL an − 1 SCT
METODOS DE COMPARACION MULTIPLE

Si al efectuar un análisis de varianza para un modelo de efectos fijos la igualdad
de medias es rechazada y se acepta la diferencia de estas, no se especifica exactamente
cuál de ellas es diferente.
En esta situación es útil realizar comparaciones adicionales entre grupos de medias de los
tratamientos.
METODO DE LA MINIMA DIFERENCIA SIGNIFICATIVA (LSD)

Este procedimiento fué sugerido por Fisher en 1935 y es el primer método de
comparaciones múltiples que vamos a utilizar. Dicho procedimiento consiste en una
prueba de hipótesis por parejas basada en la distribución t.
Se desea probar H 0 : i =  j para todo i  j (i,j =1,..,a)
La variable
(y
i• − y j • ) − ( i −  j )
ta ( n −1) gl , así un intervalo de confianza al 100 % para
1 1
CME  + 
 ni n j 
 
i −  j está dado por:
  
 LI = yi• − y j • − t0 CME  1 + 1 
 n n 
 i j 
IC ( i −  j ) =
100 %
 1 1
 LI = yi• − y j • + t0 CME  + 
  ni n j 
De aquí:
32
1 1
LSD = t0 CME  +  y t0 = t  , a (n − 1) gl  prueba de dos colas
n n 
 i j 
Por lo tanto se rechaza H 0 y se acepta que hay diferencia de medias si yi• − y j •  LSD
PRUEBA DE TUKEY
Cuando realizamos un análisis de varianza, un valor de F significativo nos indica que
no todas las condiciones producen el mismo efecto sobre la variable independiente. Con
el fin de tener mayores elementos para la toma de decisiones es importante saber donde
se encuentran dichas diferencias significativas y si éstas siguen una tendencias que nos
permitan una mejor toma de decisiones.
Una prueba que nos permite evaluar dicha diferenciación es la prueba deTukey, que
mide la diferencia de los valores de la medias de dos grupos en términos de la varianza
intragrupal.
PRUEBA DE INTERVALOS MULTIPLES DE DUNCAN

Un procedimiento usado ampliamente para comparar todas las parejas de medias
es el de la prueba de intervalos múltiples desarrollado por Duncan (1955).
La prueba de rango múltiple Duncan es una comparación de las medias de tratamientos
todos contra todos de manera que cualquier diferencia existente entre cualesquier
tratamiento contra otro se verá reflejado en este análisis. Utiliza un nivel de significancia
variable que depende del número de medias que entran en cada etapa de comparación. La
idea es que a medida que el número de medias aumenta, la probabilidad de que se
asemejen disminuye. Para obtener los comparadores Duncan, se toman de la tabla de
Duncan los valores de acuerdo al número de tratamientos y con los grados de libertad del
error. Cada uno de estos valores será multiplicado por el error estándar de la media y éstos
serán los comparadores para determinar cuales diferencias son significativas.
Para aplicar dicha prueba en muestras del mismo tamaño, se disponen en orden
ascendente los a promedios de tratamientos y se determina el error estándar de cada
promedio, usando.
CME
S yi• =
n
33
Se prueban las diferencias entre las medias empezando con la media más grande contra
la segunda más grande, y así sucesivamente,
comparando en cada caso con un valor crítico obtenido por tablas.
Es muy eficaz y popular debido a su poder de discriminación.
Si el nivel de protección es α, entonces las pruebas de las medias tienen un nivel de
significación igual o mayor que α.
COEFICIENTE DE VARIABILIDAD
Es una medida de variabilidad relativa (sin unidades de medida) cuyo uso es para
cuantificar en términos porcentuales la variabilidad de las unidades experimentales frente
a la aplicación de un determinado tratamiento. En experimentación no controlada
(condiciones de campo) se considera que un coeficiente de variabilidad mayor a 35% es
elevado por lo que se debe tener especial cuidado en las interpretaciones y ó conclusiones;
en condiciones controladas (laboratorio) se considera un coeficiente de variabilidad
mayor como elevado. La expresión estimada del coeficiente de variabilidad es:
S
CV =  100%
X
34

Introducción al muestreo en bioestadística

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción al muestreo en bioestadística

Cargado por

Copyright:

Formatos disponibles

Bioestadística Mgt. Rina M.

VENTAJAS DEL MUESTREO.-

OPERACIONES FUNDAMENTALES DEL MUESTREO:

Segunda Operación Fundamental:

Tercera Operación Fundamental:

REQUISITOS DE UNA MUESTRA:

Es la diferencia entre el valor de un estadístico y el del parámetro correspondiente.

Los métodos de muestreo pueden ser probabilísticos y no probabilísticos:

MUESTREO NO PROBABILÍSTICO O EMPÍRICO:

MUESTREO ALEATORIO SIMPLE (MAS)

MUESTREO ALEATORIO SISTEMÁTICO

muy grandes y la muestra también; se utiliza el muestreo aleatorio sistemático. Por

ESTIMACIÓN DEL TAMAÑO DE LA MUESTRA

- Cuando la población es finita y el muestreo es sin reemplazo:

INTERVALO DE CONFIANZA PARA LA PROPORCIÓN

(1,962 )(0, 267)(1 − 0, 267)(4500)

2. Un médico investigador desea estimar la proporción de mujeres en edad madura que

La estratificación, supone un conocimiento profundo de la población en estudio

Sea X la variable de interes,  y S 2 la media y varianza de X sobre la población,

 h y Sh2 la media y varianza de X sobre la subpoblación h, por lo que tendremos las

de afijación a emplear por lo que conviene considerar primero la afijación que en el

AFIJACION POR CUOTAS.-

donde ph es la proporción de la característica en estudio en el estrato h.

características de poblaciones que al inicio se supone cierta (es decir, la "creencia a

muchas veces esta es la hipótesis del investigador, es la que se quiere probar.

continúa creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones

Prueba de una Hipótesis Estadística

y con base en los resultados de una muestra aleatoria seleccionada de la población en

la hipótesis nula H 0 significa que los datos de la muestra no proporcionan evidencia

Decisión Ho es verdadera Ho es falsa

Aceptar Ho Correcta Error tipo II

Rechazar Ho Error tipo I Correcta

Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad

 = P  Error tipo II  = P  Aceptar H 0 / H 0 es falsa 

El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo

Tipos de pruebas de hipótesis

• Prueba unilateral de cola superior o tipo II:

Prueba bilateral o de dos colas tipo III

4. Establecer la región crítica determinando el valor tabular o punto crítico.

PRUEBAS DE HIPÓTESIS PARA LA MEDIA

Primer Caso: VARIANZA POBLACIONAL CONOCIDA, MUESTRA GRANDE

4.- Establecer la Región Crítica o Región de Rechazo.

Tipo II: H1 :   0 A ( z0 ) = 0,5 −  , z 0 : ver en la tabla Normal Estándar

Tipo III: H1 :   0 A ( z0 ) = 0,5 −  2 , z 0 : ver en la tabla Normal Estándar

Tipo II: Se acepta H 0 si zc  z0 y se rechaza H 0 si zc  z0

Tipo III: Se acepta H 0 si − z0  zc  z0 y se rechaza H 0 si zc  − z0 o zc  z0

Segundo Caso: VARIANZA POBLACIONAL DESCONOCIDA, MUESTRA

normal con parámetros  y  2 desconocida, para someter a prueba de hipótesis:

1.- Formular la prueba de hipótesis:

4.- Región Crítica

Tipo II: H1 :   0 t0 = t ( ; n − 1gl ) (Prueba de una cola)

Tipo III: H1 :   0 t0 = t ( ; n − 1gl ) (Prueba de dos colas)

Tipo II: Se acepta H 0 si tc  t0 y se rechaza H 0 si tc  t0

Tipo III: Se acepta H 0 si −t0  tc  t0 y se rechaza H 0 si tc  −t0 o tc  t0

PRUEBAS DE HIPÓTESIS PARA LA VARIANZA

4.- Establecer la Región Crítica o Región de Rechazo.

Tipo II: H1 : 2   02 y0 =  2 ( ; n − 1gl )

Tipo III: H1 : 2   02 y1 =  2 (1 −  2; n − 1gl ) ; y2 =  2 ( 2; n − 1gl )

Tipo II: Se acepta H 0 si yc  y0 y se rechaza H 0 si yc  y0

Tipo III: Se acepta H 0 si y1  yc  y2 y se rechaza H 0 si yc  y1 o yc  y2

PRUEBAS DE HIPÓTESIS PARA LA HOMOGENEIDAD DE VARIANZAS

2.- Establecer el nivel de significación  .