P. 1
Metodo de Duncan

Metodo de Duncan

|Views: 13.983|Likes:
Publicado porsoftware029

More info:

Published by: software029 on Mar 17, 2010
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

10/29/2015

pdf

text

original

METODO DE DUNCAN

Análisis de los métodos estadísticos a la solución de problemas técnico 1. Desarrollo Regresión Lineal Simple Y Múltiple Problema 1. En la Unidad Económica Básica "Frank País" de Moa se desea conocer el peso promedio que alcanzarán las gallinas en el próximo trimestre. A final de cada trimestre estas gallinas son distribuidas a la población y se inicia nuevamente el ciclo de crecimiento. Se conoce la cantidad de pienzo y agua consumida por estas juega un papel determinante en el peso de las mismas. En el actual trimestre se realizó un estudio donde se obtuvieron los datos para 35 gallinas. (Ver anexo 1). (Los datos recopilados no son reales). Análisis de la Regresión Simple. Variables:
• •

Variable dependiente: Y. Peso de las gallinas en libras (lb.). Variable independiente: X. Cantidad de pienzo consumida en kilogramos

(Kg.) Dócima de la pendiente. Planteamiento de las hipótesis:

Si se acepta H0 : la variable no es significativa.(No existe relación lineal entre Y y X ). Si se rechaza H0 la variable es significativa (Existe relación lineal entre Y y X ). F. variación S.C Regresión Residuos Total 153,198 55,815 209,013 G.L 1 33 34 C.M 153,198 1,69136 F 90,58 P 0,0000

El coeficiente de correlación = 0,856131(las variables se encuentran relacionadas linealmente en un 85,6131%). R2 = 73,2959 (Se ha eliminado un 73,2959 % de los errores con la regresión). El error estándar = 1,30052 Como el valor de probabilidad es 0,0000<0,05 se RH0 lo que quiere decir que el pienzo es determinante en el peso de las gallinas.

La ecuación determinada para esta estimación es: Dócima de la falta de ajuste. (El modelo lineal proporciona un buen ajuste). (El modelo lineal no proporciona un buen ajuste). El modelo que mejor ajusta es el Square Root-X F. variación S.C F.A E.P 36,1583 19,6567 G.L 24 9 C.M 1,5066 2,18407 F 0,69 P 0,7771

Como el valor de probabilidad 0,7771>0,10 se AH0 por lo que el modelo proporciona un buen ajuste. Análisis de la Regresión múltiple: Variables: Variable dependiente: Y. Peso de las gallinas en libras (lb.). Variable independiente: X1 .cantidad de pienzo consumida en kilogramos (Kg.). • Variable independiente: X2 .cantidad de agua consumida en litros (L.).
• •

Dócima de la pendiente F. variación S.C Regresión 177,586 Residuos Total 31,4272 209,013 G.L 2 32 34 C.M 88,7929 0,982099 F 90,41 P 0,0000

R2 = 84,964 % R2 ajustada =84,0243 % Error estándar =0,991009 Error medio absoluto = 0,742858 Estadístico de Durbin Watson = 1,76054. Como la probabilidad es menor que 0,05 entonces se RH0, lo que indica que algunas de estas variables son útiles para hacer estimaciones del peso de las gallinas (Y). Método paso a paso.(paso alante ) Con este método podemos determinar cuáles variables del modelo son significativas. Estadígrafo para entrar = 4,14911

Estadígrafo para remover = 4,14911 En el paso número cero tenemos cero variables en el modelo con 34 G.L para el error y un coeficiente de determinación de 0,00 %. En el paso número uno adicionamos la variable X1 con un estadígrafo para entrar de 87,4949 y como este valor es mayor que 4,14911 esta variable queda en el modelo con 33 G.L para el error y un coeficiente de determinación de 72,61 %. En el paso número dos adicionamos la variable X2 con un estadígrafo para entrar de 26,2859 y como este valor es mayor que 4,14911 esta variable queda en el modelo con 32 G.L para el error y un coeficiente de determinación de 84,96 %. Como podemos observar, tanto el pienzo como el agua que consumen las gallinas son significativas en el peso de las mismas. El modelo tiene la siguiente ecuación: Verificación de supuestos: Normalidad: Si aproximadamente el 95 % de los residuos están en el intervalo de entonces no hay razón para rechazar el supuesto de normalidad. ,

El intervalo es (-1,982018; 1,982018) Se cumple el supuesto de normalidad ya que el 94,29 % de los errores aleatorios se encuentran dentro del intervalo indicado. Homocedasticidad: (Hay Homocedasticidad) Algún difiere (No hay Homocedasticidad)

n =35 c=3 p =3 S.C Residual G.1 = 22, 2067 S.C Residual G.2 = 24,306

F = 1, 0945345

1,0945345<2,57693 Se acepta H0 por lo que se cumple el supuesto de Homocedasticidad. No autocorrelación:

(No hay autocorrelación). (Hay autocorrelación) n =35

dl =1,343 dv =1,584 RH0 AH0 RH0 0 1,343 1,584 2,416 2,657 4 d =1,76054. Se encuentra en la región de aceptación por lo que se cumple este supuesto. No multicolinialidad: (No hay multicolinialidad) (Si hay multicolinialidad) R.C: R.C:

> 4,13927 Se RH0 por lo no se cumple el supuesto de no multicolinialidad. Haciendo un pronóstico del peso que debería alcanzar una gallina para un consumo de pienzo de 10,6 Kg. y 9 L de agua obtuvimos un valor de 10,5669 con un error estándar 1,04204.

2. Diseño de experimento Problema 2. En un estudio realizado por el ministerio de salud pública se obtuvo que la mayor parte de la población cubana que padece de Hipertensión Arterial se concentra en las provincias orientales. Según criterios médicos una de las causas fundamentales de tal enfermedad es el régimen alimenticio que llevan las personas. Se pudo observar además que los alimentos que se consumen no provocan el mismo efecto en la presión para los distintos horarios del día. Es interés de todos conocer cuáles son los alimento que podemos consumir en mayor o menor medida, los horarios en que son menores y mayores los valores de

tensión arterial, así como la mejor y la peor combinación de estos factores. Para darle respuestas a estas interrogantes se tomaron muestras de valores de presión por 6 días en diferentes horarios del día de una persona. (Ver anexo 2). Análisis de varianza para datos tipo III F. variación S.C P. Efectos A: Factor A. 1733,33 B: Factor H. 1200,0 C: Réplic. Interacción AB AC BC Residuos Total 266,667 311,111 44,4444 88,8889 3650,0 4 2 2 4 17 66,6667 155,556 22,2222 22,2222 3,00 7,00 1,00 0,1562 0,0494 0,4444 5,55556 2 2 1 866,667 600 5,55556 39,00 27,00 0,25 0,0024 0,0048 0,6433 G.L C.M F P

Analizando el P-value del factor A. se obtuvo que para se rechaza H0 lo que significa que hay diferencias significativas entre los alimentos que se consumen, por lo que la variable es significativa en la inestabilidad de la presión. Haciendo el mismo análisis para el factor H. se obtuvo que para se rechaza H0 lo que significa que hay diferencias significativas entre los horarios del día en que se toma la presión, por lo que la variable es significativa en la inestabilidad de la presión. Haciendo el análisis para las réplicas se obtuvo que para se acepta H0 lo que significa que la variable no es significativa en la inestabilidad de la presión. En las interacciones tenemos que solo es significativa la interacción del factor A con las réplicas. Para obtener en cuáles horarios y en cuáles alimentos están estas diferencias significativas se uso del método de Duncan obteniéndose: Pruebas de rangos múltiples para los datos por el Factor A. Método de Duncan con 95 % Factor A. Conteo Media LS Grupos Homogéneos

Verduras Harina Sal Contraste Diferencia Harina-sal Harina-verduras Sal-verduras

6 6 6

118,333 135,0 141,667

X X X

-6,66667 *16,6667 *23,3333

De aquí se deduce que existe homogeneidad entre los alimentos harina y sal y existen diferencias significativas entre harina-verduras y sal-verduras. Pruebas de rangos múltiples para los datos por el Factor H. Método de Duncan con 95 % Factor H. Meridiano Noche mañana Contraste Diferencia Mañana-meridiano Mañana-noche Meridiano-noche *20,0 *10,0 *-10,0 Conteo 6 6 6 Media LS 121,667 131,667 141,667 Grupos Homogéneos X X X

De aquí se obtiene que existen diferencias significativas entre los tres horarios. Para el Factor A. Chequeo de varianza. Prueba C. de Cochran`s: 0,565217 P-value = 0,279372 Prueba de Bartlett`s: 1,15598 P-value = 0,368475 En la prueba de Cochran`s P-value > 0,05 En la prueba de Bartlett`s P-value > 0,05 Se cumple el supuesto de igualdad de varianza. Para el Factor H. Chequeo de varianza Prueba C. de Cochran`s: 0,442177 P-value = 0,749976 Prueba de Bartlett`s: 1,17879 P-value = 0,322074 En la prueba de Cochran`s P-value > 0,05 En la prueba de Bartlett`s P-value > 0,05 Se cumple el supuesto de igualdad de varianza.

Para el Factor Combi. Pruebas de rangos múltiples para los datos por el Facto Combi. Método de Duncan con 95 % Factor Combi. 8 9 7 5 2 6 3 4 1 Conteo 2 2 2 2 2 2 2 2 2 Media 115,0 115,0 125,0 125,0 125,0 135,0 145,0 145,0 155,0 Grupos Homogéneos X X XX XX XX XX XX XX X

Con el experimento anterior llegamos a la conclusión de que los alimentos que debemos consumir en mayor proporción son las verduras y los que menos debemos consumir son aquellos que contengan alto contenido de sal. El horario del día en que la presión alcanza menores valores es el meridiano y mayores valores por la mañana. La mejor combinación es verduras-meridiano y la peor salmañana. 3. Series Cronológicas Analizando el problema anterior pero con datos correspondientes a cuatro semanas se desea analizar el comportamiento de la presión en cada semana así podría comportarse en los próximos días. (Ver anexo 3). 1. Tt = B0 Media: 139,6429 Varianza: 153,4439 Modelo híbrido. 2. Serie de tendencia constante estacional con período 7.

B0 =139,643 p = 7 n = 28 E (1) =1,074 E (2) = 0,967 E (3) = 1,074 E (4) = 0,967 E (5) = 0,859 E (6) = 0,985 E (7) = 1,074 Varianza: 63,7500 Desv. Típica: 7,9844 3. Estimación y chequeo. 4. Diseño de pronóstico. Horizonte (K): 2 N = 28 m = 28 n = 14 Función de pronóstico:

E (1) = 1,060 E (2) = 0,971 E (3) = 1,065 E (4) = 0,975 E (5) = 0,851 E (6) = 0,953 E (7) = 1,094 Media de los errores: - 5,361 Suma de cuadrados: 980,298 Cuadrado Medio: 75,405 Raíz del Cuadrado Medio: 8,683752 Cálculo del intervalo de confianza para un nivel de confianza de 95 %. Pronóstico para T = 30: 132,7373 Intervalo de confianza para el pronóstico (115,09; 150,38) Desviación Estándar (1,25 DAP):9,0026 Valor del DAP: 7,20 Coeficiente de alisamiento del DPA: 0,250

METODO DE TUKEY
Inferencia de los parámetros del modelo. Intervalos de confianza de los parámetros. Se consideran dos situaciones: Se acepta H0. Si se acepta la no influencia del factor los datos provienen de una única muestra homogénea y los parámetros y 2 se estiman según las técnicas clásicas. (3.21) (3.22) Se rechaza H0. Si se supone que el factor influye, entonces los parámetros del modelo son: 2 . Los estimadores son I y

1

,...,

Los intervalos de confianza se calculan a partir de las siguientes distribuciones: Para i = + i

que permite obtener el siguiente intervalo de confianza a un nivel 1 - (dado en (3.19 ))

Para la varianza

2

se utiliza el estadístico pivote (dado en (3.16 ))

de donde se deduce el siguiente intervalo de confianza dado en (3.17 ).

Diferencia entre dos medias. Si se rechaza la hipótesis nula es porque existen medias de tratamientos diferentes y es importante calcular un intervalo de confianza para el parámetro = i - j, con i j, i,j = 1,...,I. Este intervalo se deduce fácilmente del siguiente estadístico pivote

que proporciona el siguiente intervalo de confianza a un nivel 1 -

3.5.2 Concepto de contraste. Lo expuesto en el apartado anterior puede generalizarse. Para ello se introduce el siguiente concepto:

“ Se denomina contraste, , a cualquier combinación lineal de los efectos de los tratamientos

En un diseño completamente aleatorizado todo contraste es estimable y su estimador mínimo-cuadrático es

Por la normalidad e independencia de las observaciones, se obtiene la distribución de (3.26)

En muchos casos es útil representar un contraste por la lista de sus coeficientes. Esto es, el contraste se puede representar por cualquiera de las dos formas equivalentes siguientes:

Contrastes importantes sobre los que es interesante hacer inferencia son los siguientes:

• Comparar tratamientos a pares (“pairwise”). Son contrastes del tipo: = i - j, donde el vector de coeficientes es un 1 en el i-ésimo lugar, un -1 en el j-ésimo lugar y un 0 en el resto. Por ejemplo, = [0,0,1,0,...,0,-1,0] sería el contraste (I 2) contrastes de comparaciones por pares
3

-

I-1

. Existen m =

Es decir, estimar contrastes del tipo: = i - j, donde el vector de coeficientes es 1 en el i-éximo lugar, un -1 en el j-ésimo lugar y un 0 en el resto. Por ejemplo, =[0,0,1,0,...,0,-1,0] sería el contraste contrastes de comparaciones por pares.
3

-

I-1.

Existen m =

• Tratamientos frente a control. Un subconjunto de contrastes del grupo anterior muy particular es el formado por los I - 1 contrastes 1 - I ([1,0,...,0,-1]), 2 - I ([0,1,...,0,-1]), ... , I-1 - I ([0,0,...,1,1]). El objetivo es comparar el efecto de cada uno de los tratamientos con un tratamiento concreto, que se suele denominar control.

• Diferencias de medias de grupos. Si los niveles de los factores tratamiento se dividen de un modo natural en dos o más grupos, puede ser interesante comparar el efecto medio de un grupo con los efectos medios de otros grupos. Por ejemplo, supóngase que se desea comparar el efecto del color del papel de examen en los resultados finales de éste. Se ha probado con dos tonos claros:

blanco y amarillo (niveles 1 y 2 del factor) y con tres tonos más fuertes: azul, verde y rosa (niveles 3, 4 y 5). El siguiente contraste:

permite observar diferencias entre la influencia del papel claro (grupo 1) con respecto a la del papel oscuro (grupo 2). • Tendencias Cuando los niveles del factor tratamiento son cuantitativos y tienen un orden natural, el experimentador podría estar interesado en saber si la respuesta crece o decrece con un incremento del nivel o, más aún, si esa tendencia se mantiene o no constante. Se habla entonces de contrastes de tendencia. Por ejemplo, supóngase que hay I = 5 niveles de un factor son equiespaciados y con igual tamaño muestral en cada grupo. Suponiendo α = α1 = α2 = α3 = α4 = α5 el siguiente contraste indica una tendencia lineal en los niveles

En el mismo contexto, una tendencia cuadrática viene dada por el contraste

En general, si = i = 1Ibi i es el estimador mínimo cuadrático de un contraste individual = i = 1Ibi i, con i = 1Ibi = 0. Entonces, de (3.2 6) se deduce que un intervalo de confianza para , al nivel 1 - , viene dado por:
(3.27)

donde g.l. representa los grados de libertad con que se ha estimado la varianza del error. En el modelo del diseño completamente aleatorizado al estimar varianza residual, R2, con n - I grados de libertad, se obtiene
2

por la

(3.28)

Análogamente, utilizando la distribución del contraste = 26), se pueden realizar test de hipótesis del tipo

I i=1 i

b i, dada en (3 .

(3.29)

3.5.3 Contrastes múltiples. Si el test de la F de la tabla ANOVA indica rechazo de la hipótesis nula de igualdad de las medias de los niveles, es importante establecer la hipótesis alternativa adecuada y, para ello, son de gran utilidad los contrastes múltiples. En ocasiones se quiere realizar un número muy grande de comparaciones, de modo que la probabilidad de que alguna comparación individual resulte significativa puede ser erróneamente muy grande. Si se quieren resolver todas las pruebas de hipótesis siguientes:

Existen m = = pruebas (por ejemplo, si I = 6 entonces m = 15). Al resolverlas una a una, con nivel , se denomina Aij al suceso:

Entonces:

Sea el suceso: A = rechazar erróneamente alguna H0ij =

m ij

Aij.

¿Cuál es la probabilidad de A? Suponiendo que los Aij fuesen independientes (obviamente no lo son):

Si = 0'05 y m = 15, entonces P(A) = 1 - 0'9515 = 1 - 0'46 = 0'54. Por tanto, la probabilidad de concluir erróneamente que algún par de tratamientos son significativamente distintos es mayor que 0'54. Hay distintos métodos para abordar el problema de la resolución de pruebas de hipótesis simultáneas (es decir, garantizando para todos ellas un nivel de significación predeterminado). Unos han sido desarrollados con carácter general y

otros orientados a problemas concretos como puede ser la comparación de distintos tratamientos con un tratamiento control. A continuación se exponen dos métodos de resolución de contrastes múltiples. Método de Bonferroni. Se basa en calcular un nivel de significación, *, para cada una de las m pruebas de hipótesis que garantice un nivel de significación concreto para todas las pruebas de hipótesis simultáneas ( es por tanto el nivel de significación global). Supóngase que se tienen I niveles y m pruebas de hipótesis individuales. Sean los sucesos: Ak : “aceptar la hipótesis nula del contraste k-ésimo cuando ésta es cierta”. A : “rechazar erróneamente la hipótesis nula de uno o más contrastes”. ¿Qué * habrá que utilizar en cada prueba de hipótesis individual para garantizar que P(A) no es mayor que ?

(3.29) Por tanto, para el modelo matemático de un diseño completamente aleatorizado, el método de Bonferroni consiste en resolver cada prueba de hipótesis individual conforme al siguiente criterio:

m j Dado un conjunto de m contrastes j = 1 , rechazar la hipótesis H0 : I j , siempre que 1 bi i = 0, a un nivel de significación global no superior a

i=

(3.30) Ventajas y desventajas de este procedimiento son las siguientes: • Si m es muy grande, puede aproximar por: será tan pequeño que tn-I no viene en las tablas. Se

donde z

es el valor de una normal estandar tal que P

= .

• Es método es excesivamente conservador y sólo resulta más potente que otros procedimientos cuando m es muy pequeño. • Es válido para cualquier tipo de diseño. Método de Scheffé. El método de Bonferroni presenta serios inconvenientes, en particular, si m es muy grande la mínima diferencia significativa al nivel global para cada prueba es excesivamente grande. Por el contrario, el método de Scheffé proporciona una mínima diferencia significativa que no depende del número de pruebas m a realizar. El valor crítico de Scheffé es

I de modo que, para cualquier contraste individual i = 1 bi i se rechaza la hipótesis H0 : i = 1Ibi i = 0, a un nivel de significación global no superior a , siempre que

(3.31)

DIFERENCIA MÍNIMA SIGNIFICATIVA
La Diferencia Mínima Significativa (DMS) sólo debe emplearse para comparar medias adyacentes en un arreglo ordenado, aunque también se puede emplear para comparar las medias con un testigo o tratamiento estándar. La DMS es una prueba de t de Student que utiliza la varianza combinada, es decir:

Sd es el error estándar de la diferencia y su cálculo a partir de los datos de la ANDEVA es como sigue:

Donde: CME es el cuadrado medio del error r es el número de repeticiones. Ejemplo: ANDEVA Fuentes de variación Tratamientos Repeticiones Error Total SC 0.73 0.096 0.354 1.1790 GL 4 2 8 14 CM 0.1825 0.048 0.0443 F 4.1196 1.0835

Promedios ordenados B A C D E 8.05 7.85 7.74 7.51 7.45

El valor de la t se toma de la tabla con los grados de libertad del error. Si la diferencia entre dos promedios seguidos excede el valor de 0.397, se la declara significativa al nivel del 5%. En este ejemplo, la DMS indica que no hay diferencias significativas entre tratamientos adyacentes, pero la F de la ANDEVA indica que sí existen diferencias si se comparan medias no adyacentes, en este caso, el investigador podría optar por otro tipo de prueba de rango múltiple.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->