Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Diseño Cap2
Diseño Cap2
2.1 Introducción
Los datos sugieren que la resistencia del cemento Portland es mayor a la del nuevo cemento
pues la diferencia en los promedios parece ser significativa; sin embargo no es obvio que dicha
diferencia sea lo suficientemente grande para concluir que ambos cementos son diferentes. Es
posible que otras dos muestras arrojen resultados opuestos. Una técnica estadística llamada Test
de Hipótesis o de Significación puede emplearse para ayudar al investigador a comparar los dos
tipos de cementos. Antes de presentar el procedimiento del mencionado examen, es conveniente
recordar algunos conceptos elementales de estadística y de probabilidades.
Cada uno de los resultados del experimento anterior difiere de los otros. Esta fluctuación o
"ruido" implica la existencia de un error experimental. Si se asume que dicho error es inevitable
y no es controlable, entonces se está en presencia de un error estadístico y por lo tanto la
medición de la resistencia a la tracción es una variable aleatoria siendo susceptible de análisis
estadísticos.
p(y=yj) = p(yj)
p(y)
y
yi yj
p (a < y < b)
p(y)
y
a b
y discreta:
0 p( y j ) 1 para todo y j
p( y y j ) p( y j ) para todo y j
p( y
todos y j
j ) 1
(2.1)
y continua:
0 f ( y)
b
p ( a y b)
a
f ( y )dy
f ( y )dy 1
(2.2)
Notar que la segunda propiedad expresada en la Ecuación 2.12 implica que la probabilidad
puntual es cero: 𝑝(𝑦 = 𝑎) = 𝑝(𝑦 = 𝑏) = 0
yf ( y )dy y continua
E ( y)
yyp( y)
todo y discreta
(2.3)
Ejemplo: Supóngase que la variable aleatoria y es el número que queda hacia arriba al lanzar un
1
dado legal. La función de probabilidad correspondiente es 𝑝(𝑦) = para y = 1, 2, 3, 4, 5, 6
6
que quiere decir que 3.5 es el valor esperado, lo que significa que 3.5 es el valor central de la
distribución. Obsérvese que no es necesario que el valor esperado sea un valor posible de la
variable aleatoria. También se interpreta en el sentido que en 10 ejecuciones del experimento,
por ejemplo, se espera que la suma de los números obtenidos sea de (10)(3.5) = 351.
Nota: la Media de una Distribución de Probabilidades o valor esperado puede ser entendida
como un promedio ponderado, en el que los valores posibles se ponderan mediante sus
probabilidades correspondientes de ocurrencia (pesos o importancia).
y u f ( y )dy
2
y continua
2
y u p( y )
2
y discreta
todo y
(2.4)
La Varianza se emplea de manera tan extensa que es conveniente definir un operador V tal que:
V ( y) E ( y u) 2 2
(2.5)
1 E (c ) c
2 E ( y)
3 E (cy ) cE ( y ) c
4 V (c ) 0
5 V ( y) 2
6 V (cy ) c 2V ( y ) c 2 2
1
1
La ecuación del ejemplo puede escribirse como: 𝐸(𝑦) = ∑6𝑦=1 𝑝(𝑦) 𝑦𝑖 = ( ) ∑6𝑦=1 𝑦𝑖
6
E ( y1 y 2 ) E ( y1 ) E ( y 2 ) 1 2
y:
V ( y1 y 2 ) V ( y1 ) V ( y 2 ) 2Cov( y1 , y 2 )
donde :
Cov( y1 , y 2 ) E y1 1 y 2 2
(2.6)
V ( y1 - y2 ) V ( y1 ) V ( y2 ) - 2 Cov ( y1 , y2 )
(2.7)
V ( y1 y2 ) V ( y1 ) V ( y2 ) 12 22
(2.8)
E ( y1 y 2 ) E ( y1 ) E ( y 2 ) 1 2
(2.9)
y E ( y1 )
E 1
y2 E ( y 2)
(210)
.... sin importar si y1 y y2 son independientes.
Un estadígrafo es cualquier función matemática de las observaciones hechas sobre una muestra
que no contiene parámetros desconocidos. Conceptualmente, un estadígrafo (número índice) es
un parámetro que aporta mucha más información que la misma población. Sean
y1 , y2 , y3 ,........ yn representantes de una muestra, se define la Media Muestral como:
y i
y i 1
n
(2.11)
( y i y )2
S2 i 1
n 1
(2.12)
3. Los estimadores puntuales tienen varianza mínima. Esta propiedad establece que la
Varianza de un estimador puntual insesgado de un parámetro, es menor a la Varianza de
cualquier otro estimador de dicho parámetro.
Grados de Libertad
A la cantidad n-1 de la Eq. (2.12) se le llama grados de libertad de la suma de los cuadrados
(SC). Donde SC ( yi y ) 2 . Este resultado general permite afirmar que si y es una variable
aleatoria con Varianza 2 , SC ( yi y ) 2 y υ grados de libertad, entonces se cumple que:
SC
E
2
(2.13)
n n
(yi y n ) yi n y n 0
i 1 i 1
Ahora imaginemos que se tienen 3 valores de y que se pueden modificar arbitrariamente, pero
con la condición de que la suma de los residuos sea 0. Se puede asignar cualquier cantidad a dos
de los tres valores de y, porque el otro va a estar dado por la fórmula, es decir que tienes dos
grados de libertad.
Esto también significa que los residuos están restringidos a encontrarse en un espacio de
dimensión n-1 (en este ejemplo, en el caso general a n-r) ya que, si se conoce el valor de n-1 de
estos residuos, la determinación del valor del residuo restante es inmediata. Así, se dice que "el
error tiene n-1 grados de libertad" (el error tiene n-r grados de libertal para el caso general).
2
En estadística se llama sesgo de un estimador a la diferencia entre su esperanza matemática y el valor del parámetro que
estima. Un estimador cuyo sesgo es nulo se llama insesgado o centrado.
Una de las distribuciones más útiles3, es la Distribución Normal. Si y es una variable aleatoria
normal, entonces la distribución de probabilidades de y es:
1
f ( y) e (1 / 2)[( y ) / ] y
2
2
(2.14)
3Caracteres morfológicos de personas, animales o plantas de una especie: tallas, pesos, envergaduras, diámetros, perímetros.
Caracteres fisiológicos: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono.
Caracteres sociológicos: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen.
Caracteres psicológicos: cociente intelectual, grado de adaptación a un medio
Errores cometidos al medir ciertas magnitudes.
Valores estadísticos maestrales, por ejemplo: la media.
Otras distribuciones como la binomial o la de Poisson son aproximaciones normales.
En general cualquier característica que se obtenga como suma de muchos factores.
y
z
(2.15)
sigue la Distribución Normal Estándar, esto es: z ~ N(0,1). Muchas técnicas de análisis
estadístico asumen que la variable aleatoria en estudio se distribuye "normal". Si se toman
muestras aleatorias de tamaño n de poblaciones que obedecen la distribución normal, la
distribución de la media muestral, y , será también normal con la misma media y desviación
estándar / n .
x n
zn
n 2
(2.16)
El teorema central del límite es uno de los resultados fundamentales de la estadística. Este
teorema nos dice que si una muestra es lo bastante grande (generalmente cuando el tamaño
muestral (n) supera los 30, sea cual sea la distribución de la media muestral, seguirá
aproximadamente una distribución normal. Es decir, dada cualquier variable aleatoria, si
extraemos muestras de tamaño n (n>30) y calculamos los promedios muestrales, dichos
promedios seguirán una distribución normal. Un caso concreto del teorema central del límite es
la distribución binomial. A partir de n=30, la distribución binomial se comporta
estadísticamente como una normal, por lo que podemos aplicar los tests estadísticos apropiados
para esta distribución.
Se sabe que los diámetros de ejes fabricados por un cierto proceso se distribuyen “normal” con
media = 2.5 cm y desviación estándar = 0.009 cm. Indagar la distribución de la media
muestral de los diámetros de una muestra de nueve ejes escogidos al azar. Calcular la fracción
de dicha medias muestrales que se espera que exceda los 2.505 cm.
La distribución de la media muestral, y , será normal con media 2.5 cm y desviación estandar
/ n 0.009 / 9 0.003 cm .
Distribución
2
z1 , z2 , z3 ,....... zi .... zn son variables aleatorias normales e independientes con media 0 y varianza
1, entonces la variable
f ( 2 )
1
2 ( k / 2 ) 1
e
2
/2
2 0
k
2 k / 2
2
(2.18)
La Fig. 2.3 muestra curvas de densidad para 6, 12, 18, 24 y 30 grados de libertad.
que:
n
sc
y i y
2
i 1
n21
2
2
(2.19)
SC
S2
n 1
(2.20)
2 2
S 2 n 1
n 1
(2.21)
z
tk
k2 / k
(2.22)
[( k 1) / 2] 1
f (t ) ( k 1) / 2
- < t <
k (k / 2) [(t / k ) 1]
2
(2.23)
↑k
Una consecuencia de la Eq. 2.22 es que si y1, y2 .... yi ,.... yn es una muestra aleatoria de una
población que se distribuye N (, 2 ) , entonces la cantidad
y
S/ n
(2.24)
4
En probabilidad y estadística, la distribución-t o distribución t de Student es una distribución de probabilidad que surge del problema de
estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño
u2 / u
F
v2 / v
(2.25)
sigue la distribución F con (u,v)grados de libertad. Una aplicación inmediata de la Eq. 2.25 es la
siguiente: Si y11, y12 ,..... y1,n1 y y 21, y 22 ,..... y 2,n2 son muestras aleatorias independientes de n1 y
n2 elementos, de varianza común 2 , de dos poblaciones normales, entonces el radio:
S12
S22
(2.26)
En esta sección se estudiará la forma en la cual datos de experimentos comparativos pueden ser
analizados empleando procedimientos de " test de hipótesis " e intervalos de confianza. A lo
largo de toda la sección se asumirá el empleo de un diseño experimental totalmente aleatorio.
Una hipótesis estadística es una afirmación acerca de los parámetros de una distribución de
probabilidad. Por ejemplo, en el caso de cemento portland (Sección 2.1), se puede afirmar que
las resistencias medias a la tracción de los dos cementos son iguales. Tal afirmación o hipótesis
puede enunciarse de la siguiente manera:
Ho : 1 2
H1: 1 2
(2.27)
donde 1 y 2 son las resistencias medias de los dos cementos, Ho es la hipótesis nula, y H1
es la hipótesis alternativa.
y1 y2
Zo
1 1
n1 n2
(2.29)
se distribuye N(0,1); sin embargo, si la varianza muestral no se conoce, ésta debe ser
reemplazada por un estimador S p . Por consiguiente y según la Eq. 2.24 la variable:
y1 y 2
to
1 1
Sp
n1 n2
(2.30)
(n 1) S12 (n2 1) S 22
Sp
n1 n2 2
(2.31)
Para ilustrar el procedimiento, considere los datos de la Tabla 2.1. A partir de dichos datos se
obtiene lo siguiente:
9(0.100) 9(0.061)
S p2 0.081 S p 0.284
10 10 2
16. 76 17. 92
to 9.13
0. 248 1 / 10 1 / 10
Ahora, supóngase que se desea un error del primer tipo del orden de 0. 05 (5%) y por
tanto un intervalo de confianza de la media poblacional, , de 0.95 (95%). En términos
gráficos, lo dicho arriba se puede representar como se muestra en la Figura 2.5
Mediante tablas, se ve que t /2 con n1 n2 2 18 grados de libertad es igual 2.101. Dado que
to 9.13 t0.025, 18 se puede concluir que la hipótesis nula, Ho , no es verdadera y por tanto debe
ser rechazada. En otras palabras, las resistencias medias a la tracción de ambos cementos son
diferentes.
Uno de los aspectos mas importantes en el Diseño Experimental es la selección del tamaño
apropiado de la muestra. El tamaño de la muestra y la probabilidad de ocurrencia del error del
tipo II están relacionados. Supóngase que está examinando la siguiente hipótesis:
H o : 1 2
H 1 : 1 2
El parámetro d implica conocer las medias y varianza poblacionales que son generalmente
desconocidas. Sin embargo, es el investigador el que puede definir diferencias criticas. Por otro
lado, puede ser evaluado a partir de la precisión del instrumento. Por ejemplo, en el caso del
cemento Portland, se desea determinar, con alto grado de probabilidad, diferencias
significativas hasta de 0.5 Kg/cm2 . Así mismo, se sabe que la precisión del instrumento es de
0.25 Kg/cm2. Con estos valores, se tiene que d = 1. Asumiendo un valor muy bajo de
ocurrencia del error II se ve que n =30 y por tanto n1 n2 15. Las curvas características
operacionales deben ser obtenidas antes de empezar la serie de experimentos.
Fig. 2.6
A menudo, es necesario conocer el o los intervalos dentro de los cuales se espera encontrar el o
los valores de los parámetros estudiados. A estos intervalos se les conoce como intervalos de
confianza. En muchos procesos, el investigador sabe de antemano que las medias poblacionales
difieren y por tanto probar que 1 2 es de poco interés. En su lugar, es de mayor utilidad
conocer el intervalo de confianza de 1 2
Definición:
P( L U ) 1
(2.26)
El intervalo:
L U
(2.27)
Ejemplo: se desea encontrar un intervalo de la diferencia de medias del problema del cemento
Portland. En virtud de la Eq. 2.19, el estadígrafo:
y1 y 2 1 2
1 1
Sp
n1 n 2
(2.28)
se distribuye t con n1 n2 2 grados de libertad (tn1 n2 2 ) . Por lo tanto, el intervalo será:
P t / 2, n1 n2 2
y1 y 2 1 2
t / 2, n1 n2 2 1
1 1
Sp
n1 n 2
1 1
P y1 y 2 t / 2, n1 n2 2 S p 1 2 y1 y 2 t / 2, n1 n2 2 S p
1 1
1
n1 n 2 n1 n2
1. 43 1 2 0.89
Si se esta examinando la hipótesis de la Eq. 2.21 y no se puede asumir que las varianzas
poblacionales sean iguales, entonces la variable de la Eq. 2.24 se convierte en:
y1 y 2
to
S12 S 22
n1 n2
(2.29)
2
S12 S 22
v n1 n2
S12 / n1
2
S 22 / n2
2
n1 1 n2 1
(2.30)
y1 y2
zo
12 22
n1 n2
(2.31)
El mismo que se distribuye N(0,1) siempre que las poblaciones sean normales o las muestras lo
suficientemente grandes tal que se cumpla el teorema del Limite Central.
Para evitar la posibilidad arriba señalada, considere un diseño experimental alternativo: (a)
tómese muestras lo suficientemente grandes tal que se hagan dos mediciones en la misma: una
con la punta 1 y otra con la punta 2 y (b) divídase al azar cada muestra en dos porciones de
iguales dimensiones. Después de llevar a cabo el experimento, se construye la siguiente tabla:
Es posible proponer un modelo estadístico que describe los datos del experimento de la
siguiente manera:
i 1,2
yij i j ij
j 1,2,.....10
(2.32)
Donde
yij es la lectura de la punta i en la muestra j
d j y1 j y2 j j 1, 2,.......10
(2.33)
d E (d j ) E ( y1 j y2 j ) E ( y1 j ) E ( y2 j ) 1 2
d
to
Sd / n
(2.34)
que se distribuye t con n-1 grados de libertad.
donde
n
(d j d ) 2
1 n
j 1
d d j
n j 1
y S d2
n 1
Substituyendo los valores numéricos se tiene to 0. 26. En tablas se ve que t0.25, 9 2. 262 .
Como to t0.25, 9 no hay evidencia que indique que ambas puntas producen diferentes valores
de dureza.