Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad 1 y 2 Estadistica Inferencial 2
Unidad 1 y 2 Estadistica Inferencial 2
SUPERIOR DE ALVARADO –
Campus Lerdo.
INGENIERÍA
INDUSTRIAL
Materia:
Mercadotecnia
.
Presenta:
Oscar rodríguez Hernández.
Docente:
Ingrid Dianet
1.1 El término "regresión" fue acuñado por Sir Francis Galton (1822-1911), primo
de Charles Darwin. Galton estudiaba la eugénica, término también introducido por sí
mismo para definir el estudio de la mejora de la raza humana a partir de los caracteres
hereditarios.
Galton estudió la altura de los hijos con relación a la altura de sus padres, y probó
que la altura de hijos altos “regresaba” hacia la media de la altura de la población a lo
largo de sucesivas generaciones. En otras palabras, hijos de padres extraordinariamente
altos tendían a ser en promedio más bajos que sus padres, e hijos de padres muy bajos
tendían a ser en promedio más altos que sus padres. En la actualidad, el término de
regresión se utiliza siempre que se busca predecir una variable en función de otra, y no
implica que se esté estudiando si se está produciendo una regresión a la media.
Anteriormente a Galton se debe mencionar a Legendre (1752-1833), quien introdujo el
método de los mínimos cuadrados utilizándolos para definir la longitud de 1 metro como
una diez millonésima parte del arco meridional. Con posterioridad a Galton, las
propiedades de las técnicas de regresión fueron estudiadas por Edgeworth, Pearson y
Yule.
La técnica de regresión lineal simple está indicada cuando se pretende explicar una
variable respuesta cuantitativa en función de una variable explicativa cuantitativa también
llamada variable independiente, variable regresora o variable predictora. Por ejemplo, se
podría intentar explicar el peso en función de la altura. El modelo intentaría aproximar la
variable respuesta mediante una función lineal de la variable explicativa.
Las suposiciones que se realizan al aplicar las técnicas de regresión lineal son:
-El modelo propuesto es lineal (es decir existe relación entre la variable explicativa y la
variable explicada, y esta relación es lineal). Es decir se asume que:
var.respuesta0var. explicativa1β
Para estudiar la validez del modelo es necesario confirmar estas hipótesis mediante el
estudio de los residuos (valores observados - valores predichos): normalidad, tendencias,
etc. Cuando no se cumplen los criterios de aplicación es necesario realizar
transformaciones a las variables, o bien para obtener una relación lineal o bien para
homogeneizar la varianza.
Regresión lineal simple. Tiene como objeto estudiar cómo los cambios en una variable, no
aleatoria, afectan a una variable aleatoria, en el caso de existir una relación funcional
entre ambas variables que puede ser establecida por una expresión lineal, es decir, su
representación gráfica es una línea recta. Cuando la relación lineal concierne al valor
medio o esperado de la variable aleatoria, estamos ante un modelo de regresión lineal
simple. La respuesta aleatoria al valor x de la variable controlada se designa por Yx y,
según lo establecido, se tendrá
De manera equivalente, otra formulación del modelo de regresión lineal simple sería: si xi
es un valor de la variable predictora e Yi la variable respuesta que le corresponde,
entonces
¿Existe una relación lineal importante entre ambas variables? Calcular la recta de
regresión de la edad en función del peso y la del peso en función de la edad. Calcular la
bondad del ajuste ¿En qué medida, por término medio, varía el peso cada año? ¿En
cuánto aumenta la edad por cada kilo de peso?
Solución:
Para saber si existe una relación lineal entre ambas variables se calcula el coeficiente de
correlación lineal, que vale:
ya que
Por tanto el ajuste lineal es muy bueno. Se puede decir que el ángulo entre el vector
formado por las desviaciones del peso con respecto a su valor medio y el de la edad con
es decir, entre esos vectores hay un buen grado de paralelismo (sólo unos 19 grados de
desviación).
Por último la cantidad en que varía el peso de un paciente cada año es, según la recta de
regresión del peso en función de la edad, la pendiente de esta recta, es decir, b1=2,8367
Kg/año. Cuando dos personas difieren en peso, en promedio la diferencia de edad entre
ambas se rige por la cantidad b2=0,3136 años/Kg de diferencia.
1.1.1
1.1.2. Calidad del Ajuste en Regresión Lineal Simple.
1.1.3. Estimación y Predicción por Intervalo en regresión lineal simple.
Medición de la adecuación del modelo de regresión.
- Análisis residual
1.1.4. Uso de un software estadístico.
1.2. Regresión Lineal Múltiple.
1.2.1. Pruebas de Hipótesis en Regresión Lineal Múltiple.
1.2.2. Intervalos de Confianza y Predicción en regresión múltiple.
1.2.3. Uso de un software estadístico.
1.3. Regresión no lineal
y = f(x, θ) + ε
f(x) = ax2 + bx + c
Regresión Exponencial
Ejemplo
x y In y x2 x Iny In y2
1 3 1,0986 1 1,0986 1,2069
1,2 3,4 1,2237 1,44 1,4684 1,4974
1,5 5 1,6094 2,25 2,4141 2,5901
2 2 0,6931 4 1,3862 0,4803
3 4,1 1,4109 9 4,2327 1,9906
3,7 5 1,6094 13,69 5,9547 2,5901
4 7 1,9459 16 7,7836 3,7865
4,5 6,5 1,8718 20,25 8,4231 3,5056
Σ 20,9 Σ 36 Σ 11,4628 Σ 67,63 Σ 32,7614 Σ 17,6455
Numero de datos = n = 8
x=
∑x
x promedio = = = 2,6125 n
ln( y )=
∑ ln( y )
y promedio = = = 1,43285 n
b=
∑ [ x ln( y )]−ln( y )∑ x
∑ x 2−x ∑ x
b= = = 0,216047
^y =2 .38316 e 0 .2166047 x
Regresión Logarítmica
Ejemplo
x y ln x ln x2 ln x * y y2
1 3 0 0 0 9
1.2 3.4 0.1823 0.0332 0.6198 11.56
1.5 5 0.4054 0.1643 2.027 25
2 2 0.6931 0.4803 1.3862 4
3 4.1 1.0986 1.2069 4.5042 16.81
3.7 5 1.3083 1.7116 6.5415 25
4 7 1.3862 1.9215 9.7034 49
4.5 6.5 1.5040 2.2620 9.776 42.25
Σ 20.9 Σ 36 Σ 6.5779 Σ 7.7798 Σ 34.5581 Σ 182.62
n=8
y=
∑ y =36 =4 .5
n 8
ln( x)=
∑ ln( x ) = 6 .5779 =0 . 8222
n 8
a=
∑ y ln( x)− y ∑ ln( x ) =34 . 5581−4 . 5(6 . 5779) =2 .090513
∑ ln x 2−ln(x )∑ ln( x) 7 . 7798−0.8222(6. 5779)
a= = = 2.090513
Ejemplo
x y xy x2 y2 x2 y x3 x4
1 3 3 1 9 3 1 1
1.2 3.4 4.08 1.44 11.56 4.896 1.728 2.0736
1.5 5 7.5 2.25 25 11.25 3.375 5.0625
2 2 4 4 4 8 8 16
3 4.1 12.3 9 16.81 36.9 27 81
3.7 5 18.5 13.69 25 68.45 50.653 187.4161
4 7 28 16 49 112 64 256
4.5 6.5 29.25 20.25 42.25 131.625 91.125 410.0625
Σ 20.9 Σ 36 Σ 106.63 Σ 67.63 Σ 182.62 Σ 376.121 Σ 246.881 Σ 958.6147
Usando una Matriz para calcular valores de los coeficientes
Linealización
Algunos problemas de regresión no lineal pueden linealizarse mediante una
transformación en la formulación del modelo.
INSTITUTO TECNOLOGICO
SUPERIOR DE ALVARADO –
Campus Lerdo.
INGENIERÍA
INDUSTRIAL
Materia:
Mercadotecnia
Semestre - Grupo - Sistema:
6° Semestre - Grupo “A” – Semi-Escolarizado.
Producto Académico:
Investigacion de la segunda unidad
Presenta:
Oscar rodríguez Hernández.
Docente:
Ingrid Dianet
Los experimentos factoriales se emplean en todos los campos de la investigación, son muy
utiles en investigaciones exploratorias en las que poco se sabe acerca de muchos factores.
VENTAJAS:
1.- Permite estudiar los efectos principales, efectos de interacción de factores, efectos
simples y efectos cruzados.
3.- El número de grados de libertad para el error experimental es alto, comparándolo con
los grados de libertad de los experimentos simples de los mismos factores, lo que
contribuye a disminuir la variancia del error experimental, aumentando por este motivo la
precisión del experimento.
DESVENTAJA:
CONCEPTOS GENERALES:
Ejemplo:
Niveles: a0 a1 a2
TIPOS DE FACTORES:
1.- FACTORES CUANTITATIVOS.- Son aquellos factores cuyos niveles son cantidades
numéricas.
Ejemplo:
Factor A : Dosis de fertilización
2.- FACTORES CUALITATIVOS.- Son aquellos factores cuyos niveles son procedimientos o
cualidades.
Ejemplo:
Factor A: a0 a1 a2
Factor B: b0 b1
niveles de A x niveles de B
Repeticiones a0 b 0 a0 b 1 a1 b0 a1 b1 a1b0 a2 b1
1
2
3
4
FORMACION DE FACTORIALES:
2.- Que factores son fijos (modelo I) y que factores son al azar (modelo II).
4.- Si son factores cuantitativos , cual debe ser el espaciamiento entre los niveles del
factor.
Por ejemplo:
Los experimentos factoriales para un determinado diseño se diferencian entre si, por el
número de factores y por la cantidad de niveles de estos factores que intervienen en el
experimento.
pA x qB dos factores "A y "B", con "p" niveles para "A" y "q" niveles para "B"
Número de factores.
1.- EFECTO PRINCIPAL.- Es una medida del cambio en el promedio entre los niveles de un
factor, promediado sobre los diferentes niveles del otro factor. Ejemplo: Dosis de
Nitrogeno en las U.E.
2.- EFECTO INTERACCION.- Es una medida de cambio que expresa el efecto adicional
resultante de la influencia combinada de dos o más factores.
3.- EFECTO SIMPLE.- Es una medida de cambio en los promedios de los niveles de un
factor, manteniendo constante, uno de los niveles del otro factor.
Análisis de la varianza
Donde Y sería el valor observado (variable dependiente), y X el valor que toma la variable
independiente.
sería una constante que en la recta de regresión equivale a la ordenada en el origen,
es otra constante que equivale a la pendiente de la recta, y es una variable aleatoria
que añade a la función cierto error que desvía la puntuación observada de la puntuación
pronosticada.
Por tanto, a la función de pronóstico la podemos llamar "Y prima":
Por tanto...
Y reorganizando la ecuación:
Ahora hay que tener en cuenta que la media de las puntuaciones observadas es
exactamente igual que la media de las puntuaciones pronosticadas:
Por tanto:
Podemos ver que nos han quedado 3 puntuaciones diferenciales. Ahora las elevamos al
cuadrado para que posteriormente, al hacer el sumatorio, no se anulen:
Y desarrollamos el cuadrado:
Podemos ver que tenemos los numeradores de las varianzas, pero al no estar divididas
por el número de casos (n), las llamamos Sumas de Cuadrados., excepto en el último
término, que es una Suma Cruzada de Cuadrados (el numerador de la covarianza), y la
covarianza en este caso es cero (por las propiedades de la regresión lineal, la covarianza
entre el error y la variable independiente es cero).
Por tanto:
O lo mismo que:
de un factor, que es el caso más sencillo, la idea básica del análisis de la varianza es
comparar la variación total de un conjunto de muestras y descomponerla como:
Donde:
es un número real relacionado con la varianza, que mide la variación
debida al "factor", "tratamiento" o tipo de situación estudiado.
es un número real relacionado con la varianza, que mide la variación dentro
de cada "factor", "tratamiento" o tipo de situación.
En el caso de que la diferencia debida al factor o tratamiento no sean estadísticamente
significativa puede probarse que las varianzas muestrales son iguales:
Donde:
es el número de situaciones diferentes o valores del factor se están comparando.
es el número de mediciones en cada situación se hacen o número de valores
disponibles para cada valor del factor.
Así lo que un simple test a partir de la F de Snedecor puede decidir si el factor o
tratamiento es estadísticamente significativo.
Visión general
Existen tres clases conceptuales de estos modelos:
1. El Modelo de efectos fijos asume que los datos provienen de poblaciones normales
las cuales podrían diferir únicamente en sus medias. (Modelo 1)
2. El Modelo de efectos aleatorios asume que los datos describen una jerarquía de
diferentes poblaciones cuyas diferencias quedan restringidas por la jerarquía.
Ejemplo: El experimentador ha aprendido y ha considerado en el experimento sólo
tres de muchos más métodos posibles, el método de enseñanza es un factor
aleatorio en el experimento. (Modelo 2)
3. El Modelo de efectos mixtos describen situaciones que éste puede tomar. Ejemplo:
Si el método de enseñanza es analizado como un factor que puede influir donde
están presentes ambos tipos de factores: fijos y aleatorios. (Modelo 3)
Supuestos previos
El ANOVA parte de algunos supuestos que han de cumplirse:
El número de grados de libertad (gl) puede separarse de forma similar y corresponde con
la forma en que la distribución chi-cuadrado (χ² o Ji-cuadrada) describe la suma de
cuadrados asociada.
Tipos de modelo
Grados de libertad
Pruebas de significación
El análisis de varianza lleva a la realización de pruebas de significación estadística, usando
la denominada distribución F de Snedecor.
Tablas ANOVA
Una vez que se han calculado las sumas de cuadrados, las medias cuadráticas, los grados
de libertad y la F, se procede a elaborar una tabla que reuna la información, denominada
"Tabla de Análisis de varianza o ANOVA", que adopta la siguiente forma:
Fuente de Grados de
Suma de cuadrados Cuadrado medio F
variación libertad
Intergrupo t-1
"Y" es la variable endógena, cuyo valor es determinado por las exógenas, hasta .
Cuales son las variables elegidas depende de la teoría económica que se tenga en mente,
y también de análisis estadísticos y económicos previos. El objetivo buscado sería obtener
los valores de los parámetros desde hasta . A menudo este modelo se suele
completar añadiendo un término más a la suma, llamado término independiente, que es
un parámetro más a buscar. Así:
.
En el que es una constante, que también hay que averiguar. A veces resulta útil, por
motivos estadísticos, suponer que siempre hay una constante en el modelo, y contrastar
la hipótesis de si es distinta, o no, de cero para reescribirlo de acuerdo con ello.
Además, se supone que esta relación no es del todo determinista, esto es, existirá siempre
un cierto grado de error aleatorio (en realidad, se entiende que encubre a todas aquellas
variables y factores que no se hayan podido incluir en el modelo) que se suele representar
añadiendo a la suma una letra representa una variable aleatoria.Así:
Se suele suponer que es una variable aleatoria normal, con media cero y varianza
constante en todas las muestras (aunque sea desconocida).
Se toma una muestra estadística, que corresponda a observaciones de los valores que
hayan tomado esas variables en distintos momentos del tiempo (o, dependiendo del tipo
de modelo, los valores que hayan tomado en distintas áreas o zonas o agentes
económicos a considerar).
Por ejemplo, en un determinado modelo podemos estar interesados en averiguar como la
renta ha dependido de los niveles de precios, de empleo y de tipos de interés a lo largo de
los años en cierto país, mientras que en otro podemos estar interesados en ver como, a lo
largo de un mismo año, ha dependido la renta de distintos países de esas mismas
variables. Por lo que tendríamos que observar, en el primer caso, la renta, niveles de
empleo, precios y tipos de interés del año 1, lo mismo, pero del año 2, etcétera, para
obtener la muestra a lo largo de varios años, mientras que en el segundo caso tendríamos
que tener en cuenta los valores de cada uno de los países para obtener la muestra. Cada
una de esas observaciones para cada año, o país, se llamaría observación muestral.
Nótese que aún se podría hacer un análisis más ambicioso teniendo en cuenta país y año.
Una vez tomada la muestra, se aplica un método, que tiene su justificación matemática y
estadística, llamado método de mínimos cuadrados. Este consiste en, básicamente,
minimizar la suma de los errores (elevados al cuadrado) que se tendrían, suponiendo
distintos valores posibles para los parámetros, al estimar los valores de la variable
endógena a partir de los de las variables exógenas en cada una de las observaciones
muestrales, usando el modelo propuesto, y comparar esos valores con los que realmente
tomó la variable endógena. Los parámetros que lograran ese mínimo, el de las suma de los
errores cuadráticos, se acepta que son los que estamos buscando, de acuerdo con
criterios estadísticos.
También, este método nos proporcionará información (en forma de ciertos valores
estadísticos adicionales, que se obtienen además de los parámetros) para ver en qué
medida los valores de los parámetros que hemos obtenido resultan fiables, por ejemplo,
para hacer contrastes de hipótesis, esto es, ver si ciertas suposiciones que se habían
hecho acerca del modelo resultan, o no, ciertas. Se puede usar también esta información
adicional para comprobar si se pueden prescindir de algunas de esas variables, para ver si
es posible que los valores de los parámetros hayan cambiado con el tiempo (o si los
valores de los parámetros son diferentes en una zona económica de los de otra, por
ejemplo), o para ver en qué grado son válidas predicciones acerca del futuro valor de la
variable endógena si se supone que las variables exógenas adoptarán nuevos valores.
Análisis de la varianza
Donde Y sería el valor observado (variable dependiente), y X el valor que toma la variable
independiente.
sería una constante que en la recta de regresión equivale a la ordenada en el origen,
es otra constante que equivale a la pendiente de la recta, y es una variable aleatoria
que añade a la función cierto error que desvía la puntuación observada de la puntuación
pronosticada.
Por tanto, a la función de pronóstico la podemos llamar "Y prima":
Por tanto...
Y reorganizando la ecuación:
Ahora hay que tener en cuenta que la media de las puntuaciones observadas es
exactamente igual que la media de las puntuaciones pronosticadas:
Por tanto:
Podemos ver que nos han quedado 3 puntuaciones diferenciales. Ahora las elevamos al
cuadrado para que posteriormente, al hacer el sumatorio, no se anulen:
Y desarrollamos el cuadrado:
Podemos ver que tenemos los numeradores de las varianzas, pero al no estar divididas
por el número de casos (n), las llamamos Sumas de Cuadrados., excepto en el último
término, que es una Suma Cruzada de Cuadrados (el numerador de la covarianza), y la
covarianza en este caso es cero (por las propiedades de la regresión lineal, la covarianza
entre el error y la variable independiente es cero).
Por tanto:
O lo mismo que:
de un factor, que es el caso más sencillo, la idea básica del análisis de la varianza es
comparar la variación total de un conjunto de muestras y descomponerla como:
Donde:
es un número real relacionado con la varianza, que mide la variación
debida al "factor", "tratamiento" o tipo de situación estudiado.
es un número real relacionado con la varianza, que mide la variación dentro
de cada "factor", "tratamiento" o tipo de situación.
En el caso de que la diferencia debida al factor o tratamiento no sean estadísticamente
significativa puede probarse que las varianzas muestrales son iguales:
Donde:
es el número de situaciones diferentes o valores del factor se están comparando.
es el número de mediciones en cada situación se hacen o número de valores
disponibles para cada valor del factor.
Así lo que un simple test a partir de la F de Snedecor puede decidir si el factor o
tratamiento es estadísticamente significativo.
Visión general
Existen tres clases conceptuales de estos modelos:
4. El Modelo de efectos fijos asume que los datos provienen de poblaciones normales
las cuales podrían diferir únicamente en sus medias. (Modelo 1)
5. El Modelo de efectos aleatorios asume que los datos describen una jerarquía de
diferentes poblaciones cuyas diferencias quedan restringidas por la jerarquía.
Ejemplo: El experimentador ha aprendido y ha considerado en el experimento sólo
tres de muchos más métodos posibles, el método de enseñanza es un factor
aleatorio en el experimento. (Modelo 2)
6. El Modelo de efectos mixtos describen situaciones que éste puede tomar. Ejemplo:
Si el método de enseñanza es analizado como un factor que puede influir donde
están presentes ambos tipos de factores: fijos y aleatorios. (Modelo 3)
Supuestos previos
El ANOVA parte de algunos supuestos que han de cumplirse:
El número de grados de libertad (gl) puede separarse de forma similar y corresponde con
la forma en que la distribución chi-cuadrado (χ² o Ji-cuadrada) describe la suma de
cuadrados asociada.
Tipos de modelo
Grados de libertad
Pruebas de significación
El análisis de varianza lleva a la realización de pruebas de significación estadística, usando
la denominada distribución F de Snedecor.
Tablas ANOVA
Una vez que se han calculado las sumas de cuadrados, las medias cuadráticas, los grados
de libertad y la F, se procede a elaborar una tabla que reuna la información, denominada
"Tabla de Análisis de varianza o ANOVA", que adopta la siguiente forma:
Fuente de Grados de
Suma de cuadrados Cuadrado medio F
variación libertad
Intergrupo t-1
"Y" es la variable endógena, cuyo valor es determinado por las exógenas, hasta .
Cuales son las variables elegidas depende de la teoría económica que se tenga en mente,
y también de análisis estadísticos y económicos previos. El objetivo buscado sería obtener
los valores de los parámetros desde hasta . A menudo este modelo se suele
completar añadiendo un término más a la suma, llamado término independiente, que es
un parámetro más a buscar. Así:
.
En el que es una constante, que también hay que averiguar. A veces resulta útil, por
motivos estadísticos, suponer que siempre hay una constante en el modelo, y contrastar
la hipótesis de si es distinta, o no, de cero para reescribirlo de acuerdo con ello.
Además, se supone que esta relación no es del todo determinista, esto es, existirá siempre
un cierto grado de error aleatorio (en realidad, se entiende que encubre a todas aquellas
variables y factores que no se hayan podido incluir en el modelo) que se suele representar
añadiendo a la suma una letra representa una variable aleatoria.Así:
Se suele suponer que es una variable aleatoria normal, con media cero y varianza
constante en todas las muestras (aunque sea desconocida).
Se toma una muestra estadística, que corresponda a observaciones de los valores que
hayan tomado esas variables en distintos momentos del tiempo (o, dependiendo del tipo
de modelo, los valores que hayan tomado en distintas áreas o zonas o agentes
económicos a considerar).
Por ejemplo, en un determinado modelo podemos estar interesados en averiguar como la
renta ha dependido de los niveles de precios, de empleo y de tipos de interés a lo largo de
los años en cierto país, mientras que en otro podemos estar interesados en ver como, a lo
largo de un mismo año, ha dependido la renta de distintos países de esas mismas
variables. Por lo que tendríamos que observar, en el primer caso, la renta, niveles de
empleo, precios y tipos de interés del año 1, lo mismo, pero del año 2, etcétera, para
obtener la muestra a lo largo de varios años, mientras que en el segundo caso tendríamos
que tener en cuenta los valores de cada uno de los países para obtener la muestra. Cada
una de esas observaciones para cada año, o país, se llamaría observación muestral.
Nótese que aún se podría hacer un análisis más ambicioso teniendo en cuenta país y año.
Una vez tomada la muestra, se aplica un método, que tiene su justificación matemática y
estadística, llamado método de mínimos cuadrados. Este consiste en, básicamente,
minimizar la suma de los errores (elevados al cuadrado) que se tendrían, suponiendo
distintos valores posibles para los parámetros, al estimar los valores de la variable
endógena a partir de los de las variables exógenas en cada una de las observaciones
muestrales, usando el modelo propuesto, y comparar esos valores con los que realmente
tomó la variable endógena. Los parámetros que lograran ese mínimo, el de las suma de los
errores cuadráticos, se acepta que son los que estamos buscando, de acuerdo con
criterios estadísticos.
También, este método nos proporcionará información (en forma de ciertos valores
estadísticos adicionales, que se obtienen además de los parámetros) para ver en qué
medida los valores de los parámetros que hemos obtenido resultan fiables, por ejemplo,
para hacer contrastes de hipótesis, esto es, ver si ciertas suposiciones que se habían
hecho acerca del modelo resultan, o no, ciertas. Se puede usar también esta información
adicional para comprobar si se pueden prescindir de algunas de esas variables, para ver si
es posible que los valores de los parámetros hayan cambiado con el tiempo (o si los
valores de los parámetros son diferentes en una zona económica de los de otra, por
ejemplo), o para ver en qué grado son válidas predicciones acerca del futuro valor de la
variable endógena si se supone que las variables exógenas adoptarán nuevos valores.
COMPARACIONES MÚLTIPLES
Con las pruebas F empleadas se demostraba si las diferencias entre varias medias
eran significativas, pero no informaban si una media en particular (o medias) difieren en
forma significativa de otra media considerada (o grupo de medias). En el caso de los pesos
de los recubrimientos puede ser importante que los laboratorios difieran unos de los
otros.
Si un experimentador tiene ante sí k medias, parece razonable probar entre todos
los pares posibles, esto es efectuar k.(k-1)/2 pruebas t bimuestrales. Esto no es eficiente.
Para ello se utilizan Pruebas de Comparaciones Múltiples, y entre ellas la Prueba del
Rango Múltiple de Duncan.
Las suposiciones básicas son, en esencia, las del análisis de la varianza en una
dimensión para tamaños muestrales iguales.
La prueba compara el Rango de Mínima Significancia, Rp, dado por:
Rp s r p
x
aquí es una estimación de:
x n
MSE
s
x n
Ejemplo: Con respecto a los datos de los pesos de los recubrimientos de estaño, aplicar la
prueba del Rango Múltiple de Duncan para probar cuáles medias de los laboratorios
difieren de las otras empleando un nivel de significancia de 0.05.
Laboratorio B C D A
Media 0.227 0.230 0.250 0.268
0.0015
s 0.011
x 12
siendo el número de grados de libertad = k.(n-1) = 44. Por interpolación, en la Tabla 12-
a, se obtienen los valores de rp:
p 2 3 4
rp 2.85 3.00 3.09
P 2 3 4
Rp 0.031 0.033 0.034
El rango de las cuatro medias es 0.268 – 0.227 = 0.041, que excede a R4 = 0.034,
que es el rango significativo mínimo.
Esto era de esperar, porque la prueba F indicó que las diferencias entre las cuatro
medias eran significativas con a = 0.05.
Para probar que hay diferencias significativas entre tres medias adyacentes, se
obtienen los rangos de 0.038 y 0.023 respectivamente para 0.230, 0.250, 0.268 y 0.227,
0.230, 0.250. Puesto que el primero de estos valores sobrepasa a R3 = 0.033, las
diferencias correspondientes no son significativas.
Por último en el caso de parejas adyacentes de medias, ningún par adyacente tiene
rango mayor que el rango significativo mínimo R2 = 0.031. Esto se resume:
donde se ha dibujado una línea bajo cualquier conjunto de medias adyacentes para las
cuales el rango es menor que un valor correspondiente de R p , esto es, bajo cualquier
conjunto de medias adyacentes, para las cuales las diferencias no son significativas.
Se concluye así que el Laboratorio A obtiene los pesos medios de recubrimiento
más alto que los Laboratorios B y C.
Para estimar los parámetros , 1, 2, 3 y 4 se puede emplear mínimos cuadrados
minimizando:
k n
yij i 2
i 1 j 1
con respecto a y a las i , sujetas a la restricción
k n
2 yij i 0
i1 j 1
k n k n k n
yij i 0
i 1 j 1 i 1 j 1 i 1 j 1
k n
yij k n 0 0
i 1 j 1
para un i dado:
n n n n
2 yij i 0 i yij
j 1 j 1 j 1 j1
Ejemplo: Estimar los parámetros del modelo con un criterio de clasificación para los
revestimientos de estaño del ejemplo anterior.
11.69
0.244
48
3.21 11.69 2.72 11.69
1 0.024 2 0.017
12 48 12 48
2.76 11.69 3.00 11.69
3 0.0135 4 0.006
12 48 12 48
2.5.1. Elección del Tamaño de Muestra
Medias
y11 y12 ……… y1j ….
Muestra 1
Muestra 2 y21 y22 ……… y2j …
………. … … ……… …… … …… ………
Muestra i yi1 yi2 ……… yij …
………. … … ……… …… … …… ………
Muestra k yk1 yk2 ……… ykj …
ij i
2 1 2
si y y
ni 1
j 1
y
Con:
ni
k k
Ti 2 C
yij
2
SST C SS ( Tr)
ni
i1 j 1 i1
siendo:
2
k ni k
1
yij
C
N
Ti
yij
i 1 j 1 i 1
Total
Marca A 0.5 0.0 3.2 1.4 0.0 1.0 8.6 2.9 17.6
Marca B 4.7 6.2 0.0 10. 2.1 0.8 24.3
5
Total 41.9
a) Emplear Análisis de Varianza para probar si las dos marcas difieren en contenido de
aflatoxina, con un nivel de significancia a=0.05.
b) Probar la misma hipótesis usando la prueba t-bimuestral.
Respuesta:
a)
y1 2.2 y2 4.05 y. 2.2
8 6
SST y1j 3 2
y2j 3 2 146.25
j 1 j 1
2
SS ( Tr)
ni yi 3
2
2
8 ( 2.2 3) 6 ( 4.05 3)
2
11.74
i 1
SSE = SST – SS(Tr) = 146.25 – 11.74 = 134.51
Dado que 1.05 < 4.75 (valor de F, de Tablas, con =0.05, =1 y =12) se rechaza la
Hipótesis de que las dos marcas difieren en el contenido de aflatoxina.
siendo t0.025= -2.18 con = n1 + n2 – 2 = 8 + 6 - 2=12 grados de libertad, se aprecia que t >
t0.025 por lo tanto se rechaza la Hipótesis de que las dos marcas difieren en el contenido de
aflatoxina.
Puede comprobarse que el estadístico t con grados de libertad y el estadístico F
con grados de libertad están relacionados por:
F(1,t