Correlacion Series de Tiempo Distribucion Normal y ANOVA en Minitab 15

Correlacin, Series de Tiempo, Distribucin Normal y Anlisis de Varianza. ndice 1.- Introduccin1 2.- MINITAB1 3.- Correlacin..2 4.
- Series de Tiempo.17 5.- Distribucin Normal42 6.- ANOVA54 7.- Bibliografa75 1. Introduccin.
Este manual contiene el concepto, aplicacin y ejecucin en el sistema Minitab versin 15, de los temas de Correlacin, Series de Tiempo, Distribucin Normal y Anlisis de Varianza (ANOVA).
2.- MINITAB
Minitab (MINITAB es marca registrada de Minitab Inc.) es un programa de computadora diseado para ejecutar funciones estadsticas bsicas y avanzadas. Combina lo amigable del uso de Microsoft Excel con la capacidad de ejecucin de anlisis estadsticos Minitab pone a tu disposicin las herramientas necesarias para analizar tus datos y tomar decisiones con dichos datos para mejorar tus negocios. Minitab es una herramienta poderosa y fcil de usar, enfocada al anlisis de datos complejos y a la identificacin y resolucin de problemas relativos a procesos, por ello Minitab se ha convertido en un instrumento fundamental para todas aquellas compaas con procesos productivos que requieren de un software de anlisis para poder controlar fcilmente esos procesos o mejorar el rendimiento de sus cadenas de produccin. Minitab Statistical incluye cerca de 50 nuevas caractersticas con cambios mnimos en el interfaz, haciendo que el programa siga siendo igual de fcil de usar que en versiones anteriores. Algunas de las novedades ms interesantes son: Puedes asignar formulas a las columnas en la hoja de trabajo. Dibujo de graficas de probabilidad y distribucin. Y ms.
2.1 Caractersticas principales de MINITAB.

Minitab cuenta entre otros, con los siguientes procedimientos estadsticos: Estadstica bsica y avanzada: Importacin, exportacin y manipulacin de datos Lenguaje de macros. Regresin y ANOVA SPC DOE - Diseo de experimentos Gage R&R Anlisis de Confiabilidad Tamao de muestra y capacidad Series de tiempo y prediccin
3.- Correlacin. Correlacin.

El objetivo de esta sesin es analizar el grado de la relacin existente entre variables utilizando modelos matemticos y representaciones grficas. As pues, para representar la relacin entre dos o ms variables desarrollaremos una ecuacin que permitir estimar una variable en funcin de la otra. Por ejemplo: En qu medida, un aumento de los gastos en publicidad hace aumentar las ventas de un determinado producto? Cmo representamos que la bajada de temperaturas implica un aumento del consumo de la calefaccin? A continuacin, estudiaremos dicho grado de relacin entre dos variables en lo que llamaremos anlisis de correlacin.
3.1 Anlisis de correlacin:

Es la herramienta estadstica que podemos usar para describir el grado hasta el cual una variable est linealmente relacionada con otra. Mide el grado de asociacin entre 2 variables. Los estadsticos han desarrollado dos medidas para describir la correlacin entre 2 variables: a) El coeficiente de determinacin. b) El coeficiente de correlacin. La introduccin de estas dos medidas es el propsito de esta seccin.
3.2 Coeficiente de determinacin.

Es la principal forma en que podemos medir la extensin o fuerza de la asociacin que existe entre 2 variables, X y Y. Como hemos usado una muestra de puntos para desarrollar lneas de regresin, nos referiremos a esta medida como el coeficiente de determinacin de muestra. Se desarrolla de la relacin entre 2 tipos de variacin: La variacin de los valores Y en un conjunto de datos alrededor de: 1. La lnea de regresin ajustada = (Y-Y) _ 2. Su propia media = (Y-Y) El coeficiente de determinacin se simboliza:
3.3 Una interpretacin intuitiva de r

Revisaremos las 2 formas extremas en las que las variables X y Y pueden relacionarse. En este ejemplo cada valor observado de Y cae en la lnea de estimacin, como se ve en la tabla esta es una correlacin perfecta.
La ecuacin de estimacin apropiada para este caso es fcil de determinar. Puesto que la lnea de regresin pasa a travs del origen, sabemos que la interseccin Y es cero; y puesto que Y se incrementa en 4 cada vez que X se incrementa en 1, la pendiente debe ser igual a 4.
La lnea de regresin es: Para determinar el coeficiente de determinacin de muestra para la lnea de regresin, primero calculamos el numerador de la fraccin en la ecuacin de r.
Variacin de los valores de Y alrededor de la lnea de regresin = Como cada valor de Y est sobre la lnea de regresin la diferencia es 0 (0) = 0
Sustituimos los valores en la frmula encontramos que el coeficiente de determinacin de muestra es igual a + 1
De hecho r es igual a +1 siempre que la lnea de regresin sea un estimador perfecto. Una segunda forma extrema en la que las variables X y Y pueden relacionarse es aquella en que los puntos podran caer a distancias iguales en ambos lados de una lnea de regresin horizontal. A continuacin mostramos la grfica:
Sustituimos los valores en la frmula encontramos que el coeficiente de determinacin de muestra es igual a 0
Por lo tanto el valor de r es cero cuando no hay correlacin. Un r cercano a 1 indica una fuerte correlacin entre X y Y. Un r cercano a 0 indica que existe poca correlacin entre X y Y.
Se debe subrayar fuertemente que r mide solo la fuerza de una relacin lineal entre 2 variables. Por ejemplo, si tuviramos muchos puntos X y Y y todos cayeran en la circunferencia de un crculo, aunque dispersos aleatoriamente, claramente habra una relacin entre estos puntos. (todos caen en el mismo crculo), Pero si calculamos r resultara estar cerca de 0, porque los puntos no tienen una relacin lineal entre s. Para evitar estos clculos, los estadsticos han desarrollado una versin de atajo, usando los valores que habramos determinado de antemano en el anlisis de regresin. La frmula es:
Para ver que esta frmula es un atajo, la aplicaremos a nuestra anterior regresin que relaciona los gastos de inversin y desarrollo con las ganancias. Recuerde que cuando encontramos los valores para a y b la lnea de regresin para este problema es:
3,600 + 2,000 5,400 = ------------------------------5,642 5,400 200 = ------ = 0.826 Coeficiente de determinacin de muestra 242 Por tanto, podemos concluir que la variacin en los gastos de investigacin y desarrollo (la variable independiente X) explica 82.6 % de la variacin en las ganancias anuales (la variable dependiente Y)
3.4 Coeficiente de correlacin.

Es la segunda medida que podemos usar para describir que tan bien una variable es explicada por otra. Cuando tratamos con muestras el coeficiente de correlacin de muestra se denota como r y es la raz cuadrada del coeficiente de determinacin de muestra: r = r Cuando la pendiente de la ecuacin de estimacin es positiva, r es la raz cuadrada positiva, pero si b es negativa, r es la negativa. El signo de r indica la direccin de la relacin entre las dos variables X y Y. Diversas caractersticas de r, el coeficiente de correlacin de muestra
En el problema anterior encontramos que el Coeficiente de determinacin de muestra es r = 0.826, para encontrar r sustituimos este valor en la ecuacin: r = r = 0.826 = 0.909 Coeficiente de correlacin de muestra La relacin entre las dos variables es directa y la pendiente es positiva, por tanto el signo de r es positivo. Supongamos que la cantidad gastada en boletos de cine correlaciona 0.6 con el ingreso familiar. A primera vista, 0.6 parece ser una correlacin bastante fuerte ya que esta ms cerca de 1 que de 0. Pero esto explica slo el 36% (0.6 x 0.6 = 0.36) de la variacin en la cantidad de dinero que las familias gastan en pelculas. Esto sugiere que una estrategia de comercializacin diseada para atraer familias con altos ingresos pasara por alto una gran cantidad de clientes potenciales.
3.5 Desarrollo en Minitab: CORRELACION

1.- Abrir el Minitab. 2.- Introducir los datos en la hoja de trabajo
3.- Colocarse en el siguiente Men y opcin: Stat Basic Statistics Correlation
4.- Seleccionar las variables a correlacionar: Gastos y Ganancias dando clic en cada una hasta que aparezcan en el recuadro de variables, posteriormente dar clic en el botn OK.
5.- Minitab calcula el resultado utilizando la Correlacin de Pearson. Donde en este caso tenemos una correlacin de .909 que como se explic anteriormente nos indica que los Gastos de Investigacin y las ganancias estn correlacionados. El p-value (valor de probabilidad) nos indica la siguiente hiptesis: Ho: cuando p-value > 0.05 H1: cuando p-value < 0.05
10
3.6 DIAGRAMA DE DISPERSION. 1. Para generar el diagrama de dispersin: Colocarse en el siguiente Men y opcin: Graph Scatterplot
2.- Seleccione la opcin Con Regresin. (With Regression) y dar clic en OK
11
3. Seleccionar las variables de Gastos y Ganancias con un clic.
y posteriormente clic en OK para obtener la siguiente grfica de dispersin:
12
3.7 LINEA DE REGRESION Y ECUACION DE REGRESION. 1.- Para generar el diagrama de dispersin con la lnea de regresin y la ecuacin de regresin: Colocarse en el siguiente Men y opcin: Regression Fitted Line Plot Stat
13
2.- Seleccionar las variables Y y X y clic OK.
Se desplegar la siguiente grfica que representa la funcin Y = 20 + 2X
14
3.8 Desarrollo de un Caso.

Una agencia de Viajes desea saber la relacin que hay entre las ventas, el presupuesto destinado a publicidad, y las comisiones de los vendedores para esto presenta los siguientes datos. Realice los anlisis respectivos.
ANLISIS DE DATOS: Se van a utilizar las siguientes variables: Variables Independientes: 1.- Gastos de Publicidad 2.- Comisin de vendedores Variable dependiente: - Ventas
De acuerdo a los cuadros podemos decir: - La variable que ms relacin tiene con la Variable Dependiente es decir las ventas es la variable Gastos de Publicidad - En cuanto a la variable Comisiones de vendedores podemos decir que no tiene relacin relevante con las Ventas.
La variable que ms relacin tiene con las ventas es la variable Gastos de Publicidad.
15
- En cuanto a la variable Comisiones de vendedores podemos decir que no tiene relacin relevante con las Ventas:
16
4.- Series de Tiempo en Minitab.

CONCEPTOS BASICOS DE SERIES DE TIEMPO 4.1 INTRODUCCIN Toda institucin, ya sea la familia, la empresa o el gobierno, tiene que hacer planes para el futuro si ha de sobrevivir y progresar. Hoy en da diversas instituciones requieren conocer el comportamiento futuro de ciertos fenmenos con el fin de planificar, prever o prevenir. La planificacin racional exige prever los sucesos del futuro que probablemente vayan a ocurrir. La previsin, a su vez, se suele basar en lo que ha ocurrido en el pasado. Se tiene pues un nuevo tipo de inferencia estadstica que se hace acerca del futuro de alguna variable o compuesto de variables basndose en sucesos pasados. La tcnica ms importante para hacer inferencias sobre el futuro con base en lo ocurrido en el pasado, es el anlisis de series de tiempo. Son innumerables las aplicaciones que se pueden citar, en distintas reas del conocimiento, tales como, en economa, fsica, geofsica, qumica, electricidad, en demografa, en marketing, en telecomunicaciones, en transporte, etc. Series De Tiempo Ejemplos - Precios de un artculo - Tasas de desempleo - Tasa de inflacin - ndice de precios, etc. - Meteorologa - Cantidad de agua cada - Temperatura mxima diaria - Velocidad del viento (energa elica) - Energa solar, etc. - Series sismologas - Tasas de crecimiento de la poblacin - Tasa de natalidad, mortalidad - Resultados de censos poblacionales - Series de demanda, gastos, ofertas - Anlisis de seales - Series de trfico
1. Series econmicas:
2. Series Fsicas:
3. Geofsica:
4. Series demogrficas: 5. Series de marketing: 6. Series de telecomunicacin: 7. Series de transporte:
Uno de los problemas que intenta resolver las series de tiempo es el de prediccin. Esto es dado una serie {x(t1),...,x(tn)} nuestros objetivos de inters son describir el comportamiento de la serie, investigar el mecanismo generador de la serie temporal, buscar posibles patrones temporales que permitan sobrepasar la incertidumbre del futuro. En adelante se estudiar como construir un modelo para explicar la estructura y prever la evolucin de una variable que observamos a lo largo del tiempo. La variables de inters puede ser macroeconmica (ndice de precios al consumo, demanda de electricidad, series de exportaciones o importaciones, etc.), macroeconmica (ventas de una empresa, existencias en un almacn, gastos en publicidad de un sector), fsica (velocidad del viento en una central elica,
17
temperatura en un proceso, caudal de un ro, concentracin en la atmsfera de un agente contaminante), o social (nmero de nacimientos, matrimonios, defunciones, o votos a un partido poltico). 4.2 DEFINICIN DE SERIE DE TIEMPO En muchas reas del conocimiento las observaciones de inters son obtenidas en instantes sucesivos del tiempo, por ejemplo, a cada hora, durante 24 horas, mensuales, trimestrales, semestrales o bien registradas por algn equipo en forma continua. Llamamos Serie de Tiempo a un conjunto de mediciones de cierto fenmeno o experimento registradas secuencialmente en el tiempo. Estas observaciones sern denotadas por {x(t1), x(t2), ..., x(tn)} = {x(t) : t T R} con x(ti) el valor de la variable x en el instante ti. Si T = Z se dice que la serie de tiempo es discreta y si T = R se dice que la serie de tiempo es continua. Cuando ti+1 - ti = k para todo i = 1,...,n-1, se dice que la serie es equiespaciada, en caso contrario ser no equiespaciada. En adelante se trabajar con series de tiempo discreta, equiespaciadas en cuyo caso asumiremos y sin perdida de generalidad que: {x(t1), x(t2), ..., x(tn)}= {x(1), x(2), ..., x(n)}. Hay cuatro tipos de cambio o variacin implicados en el anlisis de series temporales, estos son: 1. Tendencia Secular. 2. Fluctuacin Cclica. 3. Variacin temporal o estacional. 4. Variacin irregular. Tendencia Secular: El valor de la variable tiende a aumentar o disminuir en un periodo muy largo. El incremento estable en los costos de vida registrados en el Indice de Precios al Consumidor (IPC) es un ejemplo de tendencia secular.
Fluctuacin Cclica: El ejemplo ms comn de fluctuacin cclica es el ciclo de negocios. A travs del tiempo, hay aos en que el ciclo de negocios llega a un pico por encima de la lnea de tendencia. En otros tiempos, la actividad de los negocios parece caer, llegando a un punto bajo la lnea de tendencia. El tiempo que transcurre entre picos o puntos bajos es de al menos 1 ao y puede llegar a durar hasta 15 o 20 aos. (Automviles, celulares)
18
Variacin temporal: Este tipo de variacin implica patrones de cambio en el lapso de un ao que tienden a repetirse anualmente. Ejemplo, la gripa en invierno, la fiebre en verano.
Variacin Irregular: El valor de una variable puede ser completamente impredecible, es decir, cambia de manera aleatoria. Ejemplo: Conflictos a nivel mundial, como los efectos del conflicto en el Medio Oriente en 1973, la situacin en Irn en 1979-1981, el colapso de la OPEP en 1986 y la situacin en Irak en 1990 sobre los precios de la gasolina en Estados Unidos son ejemplos de variacin irregular.
19
4.3 PRIMER PASO AL ANALIZAR CUALQUIER SERIE DE TIEMPO El primer paso en el anlisis de series de tiempo, consiste en graficar la serie. Esto nos permite detectar las componentes esenciales de la serie. El grfico de la serie permitir: a) Detectar Outlier: se refiere a puntos de la serie que se escapan de lo normal. Un outliers es una observacin de la serie que corresponde a un comportamiento anormal del fenmeno (sin incidencias futuras) o a un error de medicin. Se debe determinar desde fuera si un punto dado es outlier o no. Si se concluye que lo es, se debe omitir o reemplazar por otro valor antes de analizar la serie. Por ejemplo, en un estudio de la produccin diaria en una fbrica se present la siguiente situacin ver figura 1.1:
Figura 1.1 Los dos puntos enmarcados en un crculo parecen corresponder a un comportamiento anormal de la serie. Al investigar estos dos puntos se vio que correspondan a dos das de paro, lo que naturalmente afect la produccin en esos das. El problema fue solucionado eliminando las observaciones e interpolando. b) Permite detectar tendencia: la tendencia representa el comportamiento predominante de la serie. Esta puede ser definida vagamente como el cambio de la media a lo largo de un periodo (ver figura 1.2).
Figura 1.2 c) Variacin estacional: la variacin estacional representa un movimiento peridico de la serie de tiempo. La duracin de la unidad del periodo es generalmente menor que un ao. Puede ser un trimestre, un mes o un da, etc (ver figura 1.3). Matemticamente, podemos decir que la serie representa variacin estacional si existe un nmero s tal que x(t) = x(t + ks). Las principales fuerzas que causan una variacin estacional son las condiciones del tiempo, como por ejemplo:
20
1) en invierno las ventas de helado 2) en verano la venta de lana 3) exportacin de fruta en marzo. Todos estos fenmenos presentan un comportamiento estacional (anual, semanal, etc.)
Figura 1.3 d) Variaciones irregulares (componente aleatoria): los movimientos irregulares (al azar) representan todos los tipos de movimientos de una serie de tiempo que no sea tendencia, variaciones estacionales y fluctuaciones cclicas. Ejemplo: A continuacin presentamos los datos que describen el ndice de contaminacin del aire (en partculas por milln en el aire) de una ciudad de occidente. Ao 1997 1982 1987 1992 Indice de contaminacin 220 350 800 2450 Representaremos los datos grficamente en Minitab, obtendremos la tendencia, la ecuacin lineal y el pronstico para los siguientes 10 aos.
4.4 Desarrollo en Minitab: SERIES DE TIEMPO.

1.- Abrir Minitab.
2.- Introducir los datos a la hoja de trabajo de Minitab.
21
3.- Seleccionar: Stat
Time Series
Time Series Plot
4.- Clic en Simple
22
Clic OK
5.- Con un clic seleccionamos la columna con los datos de la serie de tiempo. (El ndice de contaminacin)
6.- Clic en Time/Scale para ajustar la escala de tiempo Clic en Calendar, Seleccionamos Year.
Iniciamos en el ao 1977 con incrementos de 5 aos, por eso introducimos 5 en Data Increment.
Clic OK
23
7.- Minitab despliega la serie de tiempo del ndice de contaminacin.
24
Para obtener la grfica de tendencia y la ecuacin lineal favor de seguir los siguientes pasos:
1.- Seleccionar: Stat Time Series Trend Analysis.
2.- En la ventana Trend Analysis seleccionamos con un clic la variable, dejamos el Model Type como Linear
25
3.- Clic en Time para ajustar la escala de tiempo
Clic OK 4.- Clic Ok en la ventana Trend Analysis para obtener la grfica de tendencia y el modelo de tendencia lineal.
26
5.- Para generar pronsticos, Clic en Generate forecast. En este caso buscamos 2 pronsticos, teclear 2 en Number of forecast.
Clic OK 6.- Minitab despliega la grfica de la tendencia incluyendo los pronsticos.
27
4.5. MODELOS CLASICOS DE SERIES DE TIEMPO

4.5.1 MODELOS DE DESCOMPOSICIN
Un modelo clsico para una serie de tiempo, supone que una serie x(1), ..., x(n) puede ser expresada como suma o producto de tres componentes: tendencia, estacionalidad y un trmino de error aleatorio. Existen tres modelos de series de tiempos, que generalmente se aceptan como buenas aproximaciones a las verdaderas relaciones, entre los componentes de los datos observados. Estos son: 1. Aditivo: X(t) = T(t) + E(t) + A(t) 2. Multiplicativo: X(t) = T(t) E(t) A(t) 3. Mixto: X(t) = T(t) E(t) + A(t) Donde: X(t) serie observada en instante t T(t) componente de tendencia E(t) componente estacional A(t) componente aleatoria (accidental) Una suposicin usual es que A(t) sea una componente aleatoria o ruido blanco con media cero y varianza constante. Un modelo aditivo (1), es adecuado, por ejemplo, cuando E(t) no depende de otras componentes, como T(t), s por el contrario la estacionalidad vara con la tendencia, el modelo ms adecuado es un modelo multiplicativo (2). Es claro que el modelo 2 puede ser transformado en aditivo, tomando logaritmos. El problema que se presenta, es modelar adecuadamente las componentes de la serie. La figura 2.1 ilustra posibles patrones que podran seguir series representadas por los modelos (1), (2) y (3).
Figura 2.1
4.6 ESTIMACIN DE LA TENDENCIA

Supondremos aqu que la componente estacional E(t) no est presente y que el modelo aditivo es adecuado, esto es: X(t) = T(t) + A(t), donde A(t) es ruido blanco. Hay varios mtodos para estimar T(t). Los ms utilizados consisten en:
28
1) 1) Ajustar una funcin del tiempo, como un polinomio, una exponencial u otra funcin suave de t. 2) 2) Suavizar (o filtrar) los valores de la serie. 3) 3) Utilizar diferencias. 4.6.1 AJUSTE DE UNA FUNCIN Los siguientes grficos ilustran algunas de las formas de estas curvas.
bt
1.T(t) = a + bt
(Lineal)
2.T(t) = a e (Exponencial)
3. T(t) = a + b ebt (Exponencial modificada)
4.T(t) = 0 + 1t ,...,+ mt (Polinomial)
5.T(t) = exp(a + b(rt)) (Gompertz 0 < r < 1)
1 , 0 < r <1 a + b( r t ) 6. T(t) =

(Logstica)
Nota: i. La curva de tendencia debe cubrir un periodo relativamente largo para ser una buena representacin de la tendencia a largo plazo. ii. La tendencia rectilnea y exponencial son aplicable a corto plazo, puesto que una curva S a largo plazo puede parecer una recta en un perodo restringido de tiempo (por ejemplo).
Figura 2.2 En la figura 2.2 ambas curvas (recta y Gompertz) ajustan bien pero las proyecciones divergen enormemente a largo plazo.
29
Ejemplo 1: En la tabla 2.1 se presentan los datos trimestrales de unidades habitacionales iniciadas en los Estados Unidos desde el tercer trimestre de 1964 hasta el segundo trimestre de 1972 [1]. (Es necesario advertir que para el anlisis de tendencia el periodo que se considera debera ser ms largo. Sin embargo, ya que el propsito principal es el de ilustrar el mtodo de descomposicin y las tcnicas para inferir partiendo de los elementos as descompuestos, la insuficiencia de los datos no tiene por qu interesar.) Tabla 2.1: Nuevas unidades habitacionales comenzadas en los Estados Unidos del tercer trimestre de 1964 al segundo trimestre de 1972 (en miles de unidades). Ao I II III IV Total Anual 1964 398 352 1965 283 454 392 345 1,474 1966 274 392 290 210 1,166 1967 218 382 382 340 1,322 1968 298 452 423 372 1,545 1969 336 468 387 309 1,500 1970 264 399 408 396 1,467 1971 389 604 579 513 2,085 1972 510 661 Fuente: U.S. Department of Comerse, Survey of Current Bussiness. Sea t cada uno de los 32 trimestres que van de 1964 a 1972, o sea que t = 1 para el tercer trimestre de 1964, t = 2 para el cuarto trimestre, y as sucesivamente. As que el dominio de definicin de t es el conjunto de los enteros de 1 a 32 inclusive. Sea T(t) las iniciaciones de viviendas trimestralmente. Los valores de t y T(t) se dan en la tabla 2.2. Para calcular los valores de a y de b en la recta de tendencia: T(t) = a + bt Se obtienen las siguientes cifras a partir de los datos de la tabla 2.1. Tabla 2.2: Clculo de la tendencia de las viviendas comenzadas en los Estados Unidos del tercer trimestre de 1964 al segundo trimestre de 1972
Ao trimestre 1964: 3 4 1965: 1 2 3 4 1966: 1 2 3 4 1967: 1 2 3 4 1968: 1 2 3 4
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
T(t) Tendencia 398 291,73 352 298,07 283 304,41 454 310,75 392 317,09 345 323,43 274 329,77 392 336,11 290 342,45 210 348,79 218 355,13 382 361,47 382 367,81 340 374,15 298 380,49 452 386,83 423 393,17 372 399,51
30
1969: 1 2 3 4 1970: 1 2 3 4 1971: 1 2 3 4 1972: 1 2
19 20 21 22 23 24 25 26 27 28 29 30 31 32
336 468 387 309 264 399 408 396 389 604 579 513 510 661
405,85 412,19 418,53 424,87 431,21 437,55 443,89 450,23 456,57 462,91 469,25 475,59 481,93 488,27
Entonces, la recta de tendencia es:

T(t) = 285,39 + 6,34 t La figura 2.3 muestra grficamente la recta de tendencia ajustada a los datos trimestrales de la tabla 2.2. La recta de trazos despus de 1972 representa proyecciones (ver seccin 3 Predicciones).
Figura 2.3
4.7 Desarrollo en Minitab: ANALISIS DE TENDENCIA

1.- Abrir Minitab. 2.- Copiar los datos a la hoja de trabajo de Minitab.
31
Time Series
Trend Analysis.
4.- En la ventana Trend Analysis seleccionamos con un clic la variable, dejamos el Model Type como Linear y clic OK
32
5. Minitab despliega la siguiente grfica, que como podemos observar es similar a la presentada en el desarrollo del ejercicio.
6.- Si deseamos obtener 4 graficas en una sola ventana, seleccionar la opcin Graphs
33
Clic en Four in one.
Clic OK Minitab despliega la siguiente grfica.
34
4.8 SUAVIZAMIENTO. FILTROS LINEALES

Una forma de visualizar la tendencia, es mediante suavizamiento de la serie. La idea central es definir a partir de la serie observada un nueva serie que suaviza los efectos ajenos a la tendencia (estacionalidad, efectos aleatorios), de manera que podamos determinar la direccin de la tendencia (ver figura 2.4).
Figura 2.4 Lo que hacemos es usar una expresin lineal que transforma la serie X(t) en una serie suavizada Z(t): Z(t) = F(X(t)), t = 1,...,n
F
X(t) Z(t)
de tal modo que F(X(t)) = T(t). La funcin F se denomina Filtro Lineal. El filtro lineal ms usado es el promedio mvil. 2.2.2.1 PROMEDIOS MVILES El objetivo es eliminar de la serie las componentes estacionales y accidentales. Para una serie mensual con estacionalidad anual (s = 12), la serie suavizada se obtiene,
Z (k ) =
Z ( k 6) + Z ( k 5) + + Z (k + 5) + 1 2 Z ( k + 6) , 7 k n6 12 (1)
Para una serie trimestral, con estacionalidad anual (s = 4), la serie suavizada est dada por
Z (k ) =
Z ( k 2) + Z ( k 1) + Z ( k ) + Z ( k + 1) + 1 2 Z ( k + 2) , 3 k n2 4
(2)
A este procedimiento se les llama: filtro simtrico finito. Nota: se suaviza cuando existen muchos cambios bruscos, movimientos irregulares.
35
Ejemplo 2: A partir de los datos del ejemplo1, se calcula un promedio mvil sumando los valores para un cierto nmero de periodos sucesivos y dividiendo luego la suma as obtenida por el nmero de perodos abarcados. En este caso se trata de una serie trimestral y para ello se ocupa la frmula (2). Tabla 2.3: Clculo del Promedio Mvil centrado de cuatro trimestres de las iniciaciones de viviendas en los EEUU, tercer trimestre 1964 a segundo trimestre de 1972 (en miles de unidades) Promedio Mvil Ao por Datos Total Mvil en Promedio Mvil de Centrado de cuatro trimestre Originales Y cuatro trimestres cuatro trimestres trimestres (1) (2) (3) (4) (5) 1964: 3 398 4 352 1965: 1 283 1.487 372 371 2 454 1.481 370 369 3 392 1.474 369 367 4 345 1.465 366 359 1966: 1 274 1.403 351 338 2 392 1.301 325 308 3 290 1.166 292 285 4 210 1.110 278 276 1967: 1 218 1.100 275 287 2 382 1.192 298 314 3 382 1.322 331 341 4 340 1.402 351 359 1968: 1 298 1.472 368 373 2 452 1.513 378 382 3 423 1.545 386 391 4 372 1.583 396 398 1969: 1 336 1.599 400 395 2 468 1.563 391 383 3 387 1.500 375 366 4 309 1.428 357 348 1970: 1 264 1.359 340 342 2 399 1.380 345 356 3 408 1.467 367 382 4 396 1.592 398 424 1971: 1 389 1.797 449 471 2 604 1.968 492 507 3 579 2.085 521 536 4 513 2.206 552 559 1972: 1 510 2.263 566 2 661
En la tabla 2.3, por ejemplo, el promedio mvil de cuatro trimestres para el primer trimestre de 1965 se obtiene sumando los valores del tercer y cuarto trimestres de 1964 y el primero y segundo trimestres de 1965 y dividiendo luego la suma por 4. El promedio para el segundo trimestre de 1965 se obtiene sumando los valores del cuarto trimestre de 1964 con los del primero, segundo y tercer trimestres de 1965 y luego dividiendo la suma por 4. As pues, para cada promedio sucesivo, se resta el trimestre que viene primero y se suma el ltimo siguiente.
36
La columna 4 de la tabla 2.3 muestra los promedios mviles de cuatro trimestres obtenidos, partiendo de los datos iniciaciones de viviendas para el 1964 a 1972. El promedio mvil no elimina las fluctuaciones muy acentuadas de la serie, pero reduce sustancialmente la amplitud de las variaciones de los datos originales. Si en el clculo de un promedio mvil entra un nmero impar de perodos, el proceso ser ms sencillo puesto que el nmero de perodos antes y despus del perodo para el cual se calcula el promedio son iguales. Si el nmero de periodos es par, como en este ejemplo, no se puede utilizar el mismo nmero de perodos antes y despus de un periodo especificado. Por tanto, el promedio mvil ha de quedar a mitad de camino entre los valores de dos perodos consecutivos y no se relaciona con ningn perodo. Este problema se puede resolver calculando un promedio mvil centrado en la serie, lo cual se logra obteniendo primero un promedio mvil centrado de dos trimestres de los promedios mviles ya obtenidos. El primer promedio mvil centrado es la media de los dos primeros promedios mviles de cuatro trimestres, el segundo promedio mvil centrado es la media de los promedios mviles de cuatro trimestres segundo y tercero, etc. De esta manera, habr un nmero igual de perodos despus y antes del periodo especificado para el cual se est calculando el promedio mvil centrado. Los promedios mviles centrados se ven en la columna 5 de la tabla 2.3.
+ 352 + 283+ 454 + 392 4 Z (3) = 2 398 + 2 * (352 + 283 + 454) + 392 Z (3) = 4 * ( 2)
398 + 352 + 283 + 454 4
Segn la frmula 2, el clculo sera el siguiente:
Z (1) + Z (2) + Z (3) + Z (4) + 12 Z (5) 4 398 + 352 + 283 + 454 + 392 2 Z (3) = 2 = 371 4 Z (3) =
1 2
Este valor corresponde al Promedio Mvil Centrado que se muestra en la columna 5. La figura 2.5 muestra grficamente el ajuste por a travs del promedio mvil, segn tabla 2.3, donde el segmento negro representa la serie original y el segmento azul la serie suavizada.
Figura 2.5
37
4.9 Desarrollo en Minitab: PROMEDIOS MOVILES.

1.- Abrir Minitab. 2.- Copiar los datos a la hoja de trabajo de Minitab:
38
Time Series
Moving Average...
39
4.- Seleccionar con un clic la variable con las series de tiempo y colocar la MA length. En este caso es igual a 4 (4 trimestres por ao). Clic OK
5.- Minitab despliega la grfica con el promedio mvil.
40
4.10 Resumen
Se llama Serie de Tiempo, a un conjunto de mediciones de cierto fenmeno o experimento registradas secuencialmente en el tiempo, por ejemplo a cada hora, mensualmente, trimestralmente, semestralmente, etc.. En este apunte se trabaj con series de tiempo discreto, equiespaciadas en cuyo caso se asume que: : {x(t1), x(t2), ..., x(tn)}= {x(1), x(2), ..., x(n)}. Debido al carcter introductorio se restringi al caso de series de tiempo univariadas. Al analizar una serie de tiempo, lo primero que se debe hacer es graficar la serie. Esto nos permite detectar las componentes esenciales de la serie. El grfico de la serie permitir: detectar Outlier, detectar tendencias, variacin estacional, variaciones irregulares (o componente aleatoria). Un modelo clsico para una serie de tiempo, puede ser expresada como suma o producto de tres componentes: tendencia, estacional y un trmino de error aleatorio. Existen tres modelos de series de tiempos. Estos son: 1. Aditivo: X(t) = T(t) + E(t) + A(t) 2. Multiplicativo: X(t) = T(t) E(t) A(t) 3. Mixto: X(t) = T(t) E(t) + A(t) Con el fin de obtener un modelo, es necesario estimar la tendencia y la estacionalidad. Para estimar la tendencia, se supone que la componente estacional no est presente. La estimacin se logra al ajustar a una funcin de tiempo a un polinomio o suavizamiento de la serie a travs de los promedios mviles. Para estimar la estacionalidad se requiere haber decidido el modelo a utilizar (mixto o aditivo). Una vez estimada la tendencia y la estacionalidad se esta en condiciones de predecir. Los mtodos revisados en este apunte son de naturaleza descriptiva, por lo que el juicio y el conocimiento del fenmeno juegan un rol importante en la seleccin del modelo. Los mtodos clsicos tienen la desventaja que se adaptan a travs del tiempo, lo que implica que el proceso de estimacin debe volver a iniciarse frente al conocimiento de un nuevo dato.
41
5.- Distribucin Normal.

La distribucin de probabilidad normal ocupa un lugar prominente en la estadstica por dos razones: 1.- Tiene algunas propiedades que la hacen aplicable un gran nmero de situaciones en las que es necesario hacer inferencias mediante la toma de muestras. 2.- La distribucin normal casi se ajusta a las distribuciones de frecuencia reales observadas en muchos fenmenos, incluyendo caractersticas humanas (pesos, altura, IQ, etc.), resultados de procesos fsicos (dimensiones y rendimientos) y muchas otras medidas de inters para los administradores, tanto en el sector pblico como en el privado.
5.1 Caractersticas:
1.- La curva tiene un solo pico, por lo tanto se dice que es unimodal.
2.- La media, la mediana y la moda de los datos se encuentran en el centro de la curva y tienen el mismo valor.
3.- Los dos extremos de la distribucin normal de probabilidad se extienden indefinidamente y nunca tocan el eje horizontal.
Nota: La mayor parte de las poblaciones reales no se extienden de manera indefinida en ambas direcciones, pero para estas poblaciones, la distribucin normal es una aproximacin conveniente.
42
EN RESUMEN: LA CURVA DE DISTRIBUCION NORMAL: 1. ES UNIMODAL. 2. LA MAYOR CANTIDAD DE DATOS DE LA DISTRIBUCION CAE EN EL CENTRO DE LA CURVA. 3. LA MEDIA, LA MEDIANA Y LA MODA SE ENCUENTRAN EN EL MISMO PUNTO. 4. LOS DOS EXTREMOS DE LA DISTRIBUCION SE EXTIENDEN INDEFINIDAMENTE.
Para definir, entender y aplicar una distribucin normal de probabilidad es necesario conocer dos parmetros: La media ( ): Es la suma de los datos divididos entre el nmero de datos. La desviacin estndar(): Es la variacin de los datos con respecto a la media ():
No importa cuales sean los valores de y s para una distribucin de probabilidad normal, el rea total bajo la curva es 1.00, de manera que podemos pensar en reas bajo la curva como si fueran probabilidades.
43
En resumen: entre ms grande es el valor de sigma () el nivel de defectos permitido es menor.
Uso de la tabla de distribucin de probabilidad normal estndar.
x = Valor de la variable aleatoria que nos preocupa. = Media de la distribucin de la variable aleatoria. = Desviacin estndar de la distribucin. z = Nmero de desviaciones estndar que hay desde x a la media de la distribucin.
5.3 EJEMPLO:
Existe un programa de entrenamiento diseado para mejorar la calidad de las habilidades de supervisin de los supervisores de la lnea de produccin. Debido a que el programa es autoadministrado, los supervisores requieren un nmero diferente de horas para terminarlo. Un estudio de los participantes anteriores indica que el tiempo medio que se lleva completar el programa es de 500 horas, y que esta variable aleatoria normalmente distribuida tiene una desviacin estndar de 100 horas.
44
Cul es la probabilidad de que un participante elegido al azar requiera ms de 500 horas para completar el programa?
Respuesta: La mitad del rea bajo la curva est localizada a ambos lados de la media de 500 horas. Si la probabilidad mxima de que un evento ocurra es 1 y en este caso nuestra media esta en 500 y ocupa exactamente la mitad de nuestra curva entonces la probabilidad es la mitad de el rea de la curva, o sea 0.5
Cul es la probabilidad de que un participante elegido al azar se tome entre 500 y 650 horas para completar el programa de entrenamiento?
x = Valor de la variable aleatoria que nos preocupa. = Media de la distribucin de la variable aleatoria. = Desviacin estndar de la distribucin. z = Nmero de desviaciones estndar que hay desde x a la media de la distribucin.
Buscando en la tabla para distribuciones normales de probabilidad encontramos que para z = 1.5 la probabilidad es = 0.4332
45
5.4 Desarrollo en Minitab: DISTRIBUCION NORMAL

1.- Abrir el Minitab. 2.- Colocarse en el siguiente Men y opcin: Graph Probability Distribution Plot
3.- Se despliega la ventana de Probability Distribution Plots:
Clic en View Probability
46
Clic OK
4.- Seleccionar Distribucin Normal.
47
Introducir los valores de la Media (Mean) y la Desviacin Estndar (Standard deviation)
5.- Clic en Shaded Area,
48
Seleccionar X Value, Clic en Middle y proporcionar los valores de X1 y X2
Clic OK
6.- Minitab despliega la grfica de la distribucin normal con el valor de la sombreado.
probabilidad
Como en el ejemplo anterior, tenemos que la probabilidad de que un participante elegido al azar se tome entre 500 y 650 horas para completar el programa de entrenamiento es de .433
49
5.5 Desarrollo de un Caso.

Una empresa elctrica fabrica focos que tienen una duracin antes de fundirse, que se distribuye normalmente con media igual a 820 horas y una desviacin estndar de 42 horas. Encuentre lo siguiente: a) La probabilidad de que el foco se funda entre las 780 y 830 horas. b) Que probabilidad hay de que un foco dure ms de 850 horas. c) Que probabilidad hay de que un foco dure entre 710 y 760 horas
50
1.2.3.4.-
Abrir el Minitab. Colocarse en el siguiente Men y opcin: Graph Probability Distribution Plot Clic en View Probability Seleccionar Distribucin Normal. Introducir la Media (Mean) y la Desviacin Estndar (Standard deviation)
Clic en Shaded Area. Seleccionar X Value, Clic en Middle y proporcionar los valores de X1 y X2
Clic OK
51
7. Minitab despliega la grfica de la distribucin normal con el valor de la probabilidad sombreado 0.424 42.4 % el mismo resultado que haciendo el ejercicio de forma manual.
De 820 (la media) a 855 tenemos una probabilidad de 0.298
52
Seleccionar Shaded Area y X Value y proporcionar los valores de X1 y X2
Minitab despliega la grfica de la distribucin normal con el valor de la probabilidad sombreado: 0.0722 o 7.2 % el mismo resultado que haciendo el ejercicio de forma manual
53
6. Anlisis de varianza
En estadstica, anlisis de varianza (ANOVA, segn terminologa inglesa) es una coleccin de modelos estadsticos y sus procedimientos asociados. El anlisis de varianza sirve para comparar si los valores de un conjunto de datos numricos son significativamente distintos a los valores de otro o ms conjuntos de datos. El procedimiento para comparar estos valores est basado en la varianza global observada en los grupos de datos numricos a comparar. Tpicamente, el anlisis de varianza se utiliza para asociar una probabilidad a la conclusin de que la media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones. Permite probar la significancia de las diferencias entre ms de dos medias muestrales.
6.1 Situaciones en las que podemos utilizar ANOVA.

El anlisis de varianza ser til en situaciones tales como la comparacin del kilometraje logrado por cinco clases diferentes de gasolina; la prueba de cul de cuatro mtodos de capacitacin produce el aprendizaje ms rpido; o en la comparacin de los ingresos del primer ao de los graduados de una media docena de escuelas de administracin. En cada caso, se pueden comparar las medias de ms de dos muestras.
6.2 Supuestos previos

El ANOVA parte de algunos supuestos que han de cumplirse: La variable dependiente debe medirse al menos a nivel de intervalo. Independencia de las observaciones. La distribucin de la variable dependiente debe ser normal. Homocedasticidad: homogeneidad de las varianzas.
6.3 Visin general

Existen tres tipos de modelos: El modelo de efectos fijos asume que el experimentador ha considerado para el factor todos los posibles valores que ste puede tomar. Ejemplo: Si el gnero del individuo es un factor, y el experimentador ha incluido tantos individuos masculinos como femeninos, el gnero es un factor fijo en el experimento. Los modelos de efectos aleatorios asumen que en un factor se ha considerado tan slo una muestra de los posibles valores que ste puede tomar. Ejemplo: Si el mtodo de enseanza es analizado como un factor que puede influir sobre el nivel de aprendizaje y se ha considerado en el experimento slo tres de los muchos ms mtodos posibles, el mtodo de enseanza es un factor aleatorio en el experimento. Los modelos mixtos describen situaciones donde estn presentes ambos tipos de factores: fijos y aleatorios.
54
La tcnica fundamental consiste en la separacin de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un anlisis de regresin lineal) SSTotal = SSError + SSFactores El nmero de grados de libertad (gl) puede separarse de forma similar y se corresponde con la forma en que la distribucin chi-cuadrado describe la suma de cuadrados asociada. glTotal = glError + glFactores
Modelo de efectos fijos El modelo de efectos fijos de anlisis de la varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material analizado a varios factores, cada uno de los cuales le afecta slo a la media, permaneciendo la "variable respuesta" con una distribucin normal. Modelo de efectos aleatorios Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren diferencias incomparables en el material o grupo experimental. El ejemplo ms simple es el de estimar la media desconocida de una poblacin compuesta de individuos diferentes y en el que esas diferencias se mezclan con los errores del instrumento de medicin. Grados de libertad Por grados de libertad "degrees of freedom" entendemos el nmero efectivo de observaciones que contribuyen a la suma de cuadrados en un ANOVA, es decir, el nmero total de observaciones menos el nmero de datos que sean combinacin lineal de otros. Pruebas de significacin El anlisis de varianza lleva a la realizacin de pruebas de significacin estadstica, usando la denominada distribucin F de Snedecor.
55
6.4 Ejemplo 1 de anlisis de varianza:

Quince aprendices en un curso tcnico son aleatoriamente asignados a tres diferentes tipos de mtodos de instruccin, todos los cuales persiguen el desarrollo de un nivel especfico de habilidad en diseo asistido por computadora. Las calificaciones de aprovechamiento al trmino de la unidad de instruccin se muestran en la siguiente tabla. Use el procedimiento de anlisis de varianza para probar la hiptesis nula de que las medias muestrales se obtuvieron de la misma poblacin, con un nivel de significancia del 5%. Metodo de Instruccin A1 A2 A3 86 90 82 Calificaciones totales 84 89 81 400 425 375 1200 Calificaciones medias 80 85 75
Calificaciones 79 76 68 81 88 73 70 82 71
Tabla de resumen
F requerido Fuente de variacin Grados de Suma de Cuadrado medio libertad cuadrados F Observado 5% = 125/37.33 = 3.35 3.88 1% 6.93
Tratamientos Error de muestreo Total
2 12 14
250 = 250/2 = 125 448 = 448/12 =37.33 698
El nmero total de gl para total es el nmero de observaciones -1 = 15-1 = 14 El nmero de grados de libertad para los tratamientos es tratamientos -1 = 3-1 =2 Los grados de libertad para el error de muestreo son gl totales - gl de los tratamientos = 14 -2=12 Termino de correccin es la sumatoria total de las observaciones elevadas al cuadrado y divididas entre el numero total de observaciones: = 1200 =1, 440,000 / 15 = 96,000 LA SCT es igual a sumar las observaciones al cuadrado y restarles el trmino de correccin ( C ) lo que es igual a: = (86) + (79) + .......+ (81) = 96698 - 96000 = 698 LA SCA es igual a elevar al cuadrado la sumatoria de cada tratamiento/ n y restarle el termino de correccin ( C ) = 160 000/ 5 + 180625/5 + 140625/5 - 96000 = 250 LA SCE = SCT - SCA = 698 - 250 = 448 Los valores del F requerido se obtienen de la tabla para distribuciones F con un 0.05 del rea en el extremo derecho y de la tabla para distribuciones F con un 0.01 del rea en el extremo derecho. Conclusin: Dado que la F observada es menor que la F requerida al nivel de significancia del 5% se concluye que no existe ningn efecto asociado con los mtodos de instruccin y por lo tanto que las diferencias entre la medias no son significativas al nivel del 5%.
56
6.5 Desarrollo en Minitab del ejemplo 1.

1.- Abrir Minitab. 2.- Introducir los datos en la hoja de trabajo: Cada mtodo de instruccin se captura en cada columna A1, A2, A3.
3.- Seleccione Stat
ANOVA
One-Way (Unstacked)
57
4.- Minitab despliega la ventana One-Way Analysis of Variance Seleccione con un clic las respuestas en columnas separadas. El nivel de confianza es del 95 %
5.- Para revisar la configuracin de las grficas clic en Graphs. Clic Three in one (3 en 1) Clic OK
Clic OK en la ventana One-Way Analysis of Variance
58
6.- Minitab despliega el anlisis de varianza:
El anlisis de varianza La primera fila en la tabla del anlisis de varianza contiene todas las estadsticas asociadas con el factor. La siguiente fila contiene todas las estadsticas asociadas con el error aleatorio (error). Los grados de libertad Los grados de libertad (DF) se refieren al nmero de valores usados para calcular la suma de los cuadrados (SS) para cada fuente. La suma de cuadrados La suma de cuadrados (SS) es la medida de la cantidad de variabilidad que cada fuente contribuye a los datos. Observe que el total de variabilidad en los datos (SS suman 698) es igual al SS para el factor (250) ms el SS para el Error (448). Media cuadrada (MS) para cada fuente es igual al SS dividi por el DF. El MS para el factor es una estimacin del promedio de la media junto con el grupo de variabilidad. El MS para el error es una estimacin del promedio dentro del grupo. F-estadstica Es calculado como el MS para el factor dividido por el MS para el error. Cuando las diferencias entre el nivel de factor de la media es similar a las diferencias entre las observaciones de cada nivel. F ser cerrado a 1. Si la variabilidad entre el nivel de factor de la media es ms larga que la variabilidad entre las observaciones dentro del factor, F ser mayor que 1. El P-value: Si el valor de p (p-value) de una prueba estadstica es menor que tu alfa, entonces se debe rechazar la hiptesis nula.
59
Conclusin: Dado que el P value es mayor que el alfa de 5% se acepta la hiptesis nula y se concluye que no existe ningn efecto asociado con los mtodos de instruccin y por lo tanto que las diferencias entre la medias no son significativas al nivel del 5%. 95% CIs individuales Para la Media Para cada nivelado de tu factor MINITAB despliega el intervalo de confianza., As como lo siguiente las estadsticas: N--------- Nmero de observaciones. Mean--- Media de las observaciones. StDev--- Desviacin estndar de las observaciones
Residual Plots for A1, A2, A3

Normal Probability Plot
99 90 Residual Percent 50 10 1 -10 -5 0 Residual 5 10 -10 75.0 77.5 80.0 Fitted Value 82.5 85.0 5 0 -5
Versus Fits
Histogram
3 Frequency
0 -8 -4 0 Residual 4 8
Interpretando los resultados La grafica de probabilidad normal Usa la grafica de probabilidad normal de la residual para verificar que tu residual no este desviado sustancialmente de la distribucin normal. Si la residual viene de la distribucin normal, los puntos seguirn una lnea recta. Si la residual no viene de la distribucin normal, los puntos no seguirn una lnea recta.
Basado en esta grafica, es razonable asumir que la residual de los datos no est desviada sustancialmente de la distribucin normal.
60
Interpretando los resultados Residuales contra fits. Use la grafica de la residual versus las fits para verificar que las siguientes suposiciones han sido encontradas: Variaciones constantes a travs de la combinacin de todos los factores. No estn fuera de lnea los datos. Si t ves cualquier tipo de patrn en la grafica, una de estas suposiciones encontradas ha sido violada. La siguiente tabla indica los tipos de patrones que puedes ver Los patrones: La extensin desigual de las residuales a travs de los diferentes valores ajustados. Un punto est situado muy lejos del cero. Indica La variacin de tu residual no es constante.
Fuera de lnea.
Alternativas
Se puede usar un histograma de la residual para evaluar la normalidad. Sin embargo la grafica de probabilidad normal es generalmente fcil de interpretar, especialmente para muestras pequeas.
61
6.6 Ejemplo 2 de anlisis de varianza:

Se quiere averiguar si 3 fertilizantes, A, B y C presentan diferencias significativas en cuanto a sus efectos sobre el aumento de la cosecha. Con este propsito se eligieron al azar 15 parcelas a las que se fertiliz aleatoriamente con cada uno de los fertilizantes en cuestin. Los aumentos de cosecha obtenidos fueron los siguientes:
A la vista de estos datos, puede inferirse que existen diferencias significativas entre los tres fertilizantes a nivel alfa = 0.05? Se trata de un Anlisis de Varianza para un factor en un diseo completamente aleatorio, con el que se quiere contrastar la hiptesis nula de igualdad de los efectos medios de los tres fertilizantes, , frente a la alternativa de no ser los tres iguales.
Como en todos los contrastes de este tipo, lo primero que debemos determinar es la tabla de ANOVA , la cual es:
Para calcular la suma de cuadrados SSTi, partiendo de la tabla de datos del enunciado, calculamos, en una ltima columna, los totales de cada tratamiento (totales por filas)
as como la suma de todos los totales,
62
El nmero de observaciones realizadas de cada tratamiento es ni = 5, i = 1,2,3, y el nmero total de observaciones es
La suma de cuadrados debido a los fertilizantes, ser por lo tanto
= 17430.6 - 17408.067 = 22.533
Sus grados de libertad son igual al nmero de tratamientos menos uno, r -1 = 3 - 1 = 2 La suma total de cuadrados es igual a la suma de los cuadrados de las observaciones menos el valor antes calculado T/n,
En nuestro ejercicio es igual a:
= 39 + 33 + + 26 + 35 - 17408.067 = 17617 17408.067 = 208.933 Sus grados de libertad son igual al nmero de tratamientos menos uno, n1 = 15-1 = 14 Por ltimo la suma residual de cuadrados se calcula como diferencia de las otras dos sumas de cuadrados antes calculadas:
63
= 208.933 22.533 = 186.4 Sus grados de libertad se calculan tambin como diferencia de los grados de libertad de las otras dos sumas de cuadrados que sirvieron para obtener SSE; es decir, (n-1)(r-1)=14-2= 12 De esta forma, determinamos las sumas de cuadrados y los grados de libertad de las tres fuentes de variacin que forman la tabla de Anlisis de Varianza. Los cuadrados medios correspondientes a cada fuente de varianza se determinan ahora, simplemente, dividiendo cada suma de cuadrados por sus grados de libertad: Cuadrado medio correspondiente a los fertilizantes: SSTi 22.533 ------- = ----------- = 11.266 r- 1 2 Cuadrado medio correspondiente a los fertilizantes:
SSE = ------n- r
186.4 -------12
= 15.333
Finalmente, el estadstico a utilizar en el contraste, se calcula dividiendo los cuadrados medios antes determinados: SSTi/(r -1) 11.266 F = -------------- = ----------- = 0.73 SSE/(n r) 15.333 Todos estos clculos se recogen en la tabla ANOVA siguiente:
F. de variacin
Suma de cuadrados SSTi = 22.533 SSE = 186.4 SST = 208.933
Fertilizantes Residual Total
Grados de libertad 2 12 14
Cuadrados medios
Estadstico
11.266 15.533
F = 0.73
El estadstico F tiene, si es cierta la hiptesis nula de igualdad de los efectos medios de los tres fertilizantes, una distribucin F de Snedecor con grados de libertad igual al par formado por los grados de libertad correspondientes a las fuentes de variacin de los Fertilizantes y Residual, antes determinados, (r-1, n-r)= (2,12), por lo que para determinar el punto crtico, a un nivel de significacin alfa = 0.05, buscaremos en la tabla de la F de Snedecor el valor F(2,12);0.05 = 3.8853. Al ser F = 0.73 menor que dicho punto crtico, se acepta Ho concluyendo con la no existencia de diferencias significativas entre los tres fertilizantes.
64
6.7 Desarrollo en Minitab del ejemplo 2.

1.- Abrir Minitab. 2.- Introducir los datos en la hoja de trabajo: Cada mtodo de instruccin se captura en cada columna A1, A2, A3.
3.- Seleccione Stat
ANOVA
One-Way (Unstacked)
65
4.- Minitab despliega la ventana One-Way Analysis of Variance Seleccione con un clic las respuestas en columnas separadas. El nivel de confianza es del 95 %
5.- Para revisar la configuracin de las grficas clic en Graphs. Clic Three in one (3 en 1) Clic OK
Clic OK en la ventana One-Way Analysis of Variance
66
6.- Minitab despliega el anlisis de varianza:
Residual Plots for A1, A2, A3

99 5.0 90 Residual Percent 2.5 0.0 -2.5 -5.0 -10 -5 0 Residual 5 10 33 34 Fitted Value 35 36 50 10 1
Versus Fits
Histogram
3 Frequency
0 -6 -4 -2 0 2 Residual 4 6
67
Conclusin: Dado que el P-value es mayor que el alfa de 5% se acepta la hiptesis nula concluyendo con la no existencia de diferencias significativas entre los tres fertilizantes. El estadstico F tiene, si es cierta la hiptesis nula de igualdad de los efectos medios de los tres fertilizantes, una distribucin F de Snedecor con grados de libertad igual al par formado por los grados de libertad correspondientes a las fuentes de variacin de los Fertilizantes y Residual, antes determinados, (r-1, n-r)= (2,12), por lo que para determinar el punto crtico, a un nivel de significacin alfa = 0.05, buscaremos en la tabla de la F de Snedecor el valor F(2,12);0.05 = 3.8853. Al ser F = 0.73 menor que dicho punto crtico, se acepta Ho concluyendo con la no existencia de diferencias significativas entre los tres fertilizantes.
6.8 Desarrollo detallado de un ejemplo de ANOVA en MINITAB.

Paso 1 - Definir el problema y el Objetivo. Un diseador de la ropa quiere determinar si el porcentaje de algodn en una fibra sinttica tiene un efecto en la tensin de la fibra. Se sabe que el porcentaje de algodn debe estar entre el 10% y el 40% para que la tela mantenga otras propiedades deseables. Al incrementar la tensin se hace la tela ms durable. El objetivo es estudiar los efectos de cambiar el contenido de algodn en la fuerza de tensin. Paso 2 - Definir el Factor y Niveles de Inters. Factor = % Volumen del Algodn Nivel = 15%, 20%, 25%, 30%, 35% Paso 3 Definir el nivel Alfa (usualmente el 5%) Paso 4 - Definir el nivel Beta (usualmente 10 20 %) Paso 5 - Establecer el Tamao del Efecto. Paso 6 - Establecer el Tamao de la muestra. Recolectaremos 5 muestras para cada nivel de porcentaje de algodn. Paso 7 - Desarrollar el Plan de Muestreo. Para asegurar que no hay influencias debido a variables escondidas, el orden de las pruebas ser en forma aleatoria, 25 corridas en total. Paso 8 - Seleccionar las muestras. Paso 9 - Conducir las pruebas con las muestras seleccionadas. Introducimos los datos al Minitab.
68
Note que hay 2 diferentes formas en las que se pueden capturar los datos en MINITAB: 1. Unstacked: (No apilados) Cada muestra est en su propia columna. (C1 a C5) 2. Stacked: (Apilados) Los datos de las muestras estn en una columna y los del factor en otra columna. (C6 - C7) Nota: El mtodo apilado es preferido porque se puede preservar el orden de observacin de los datos. Paso 10 - Graficar los datos. Opciones: Stat ANOVA One-Way.
69
Seleccionar la Tensin como Response y el % de Algodn como Factor, confianza al 95%
dejar el nivel de
Clic en Graphs.
70
Clic en Boxplots of data Clic OK
Clic OK en la ventana del One-Way Analysis of Variance.
Boxplot of Tensin
25
20 Tensin
15
10
5 15 20 25 % de Algodn 30 35
Qu observaciones podemos hacer de los grficos de caja? 1.- La respuesta se incremente al 30%, y disminuye al 35%. 2.- 25% y 30% parecen ser significativamente mayores que el 15% y 35% 3.- 30% esta significativamente ms alto que 15%, 20%, 35%.
71
Paso 11 - Construir la tabla ANOVA. Paso 12 - Calcular la prueba estadstica (F) y su valor asociado de p.
One-way ANOVA: Tensin versus % de Algodn

Source % de Algodn Error Total S = 2.839 DF 4 20 24 SS 475.76 161.20 636.96 MS 118.94 8.06 F 14.76 P 0.000
R-Sq = 74.69%
R-Sq(adj) = 69.63%
Source = Fuentes de variacin. DF = Grados de libertad por fuente. SS = Suma de cuadrados (variacin) por fuente. MS = Estimado de la varianza de cada fuente SS/df. F = Radio de F MS(% de Algodn)/MS(Error) P = Valor de P
Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ------+---------+---------+---------+--15 5 9.800 3.347 (-----*----) 20 5 15.400 3.130 (----*----) 25 5 17.600 2.074 (----*----) 30 5 21.600 2.608 (----*----) 35 5 10.800 2.864 (-----*----) ------+---------+---------+---------+--10.0 15.0 20.0 25.0
Paso 13 Probar la hiptesis de medias iguales
Hiptesis alterna, Ha: Al menos una media no es igual. Prueba estadstica: Cuadrados de la media del % de algodn Cuadrados de la media del error
118.94
14.76
F = ----------------------------------- = ------ =
8.06
P-value = probabilidad de observar la prueba estadstica si Ho es verdadera = 0.000 Como p-value es < 0.05, rechazamos la hiptesis nula Ho y concluimos que una o ms medias es diferente.
Paso 14 - Revisar posibles violaciones a los supuestos. Cuando usamos ANOVA, hacemos los siguientes supuestos: Los residuales son: o Independientes o Distribuidos de forma Normal o Con varianza igual
MINITAB es muy robusto para realizar estas pruebas.
72
Seleccionar Four en 1 Independencia.
(4 en 1)
para revisar Normalidad, Varianzas iguales e
Clic OK
Residual Plots for Tensin

99 5.0 90 50 10 1 -5.0 -2.5 0.0 Residual 2.5 5.0 Residual Percent 2.5 0.0 -2.5 -5.0 10.0 12.5 15.0 17.5 Fitted Value 20.0
Versus Fits
Histogram
6.0 Frequency 4.5 3.0 1.5 0.0 -4 -2 0 2 Residual 4 5.0 Residual 2.5 0.0 -2.5 -5.0 2 4 6
Versus Order
8 10 12 14 16 18 20 22 24 Observation Order
73
Paso 15 - Si Ho fue rechazada, determinar cual(es) media(s) son diferentes. Stat ANOVA One-Way O ANOVA One-Way (Unstacked) Stat Selecciona Comparisons Clic Fishers individual error rate: Captura un valor de 5 (para alfa igual a 5%)
Fisher 95% Individual Confidence Intervals All Pairwise Comparisons among Levels of % de Algodn Simultaneous confidence level = 73.57% % de Algodn = 15 subtracted from: % de Algodn 20 25 30 35
Lower 1.855 4.055 8.055 -2.745
Center 5.600 7.800 11.800 1.000
Upper 9.345 11.545 15.545 4.745
--------+---------+---------+---------+(----*----) (----*---) (----*---) (---*----) --------+---------+---------+---------+-8.0 0.0 8.0 16.0
% de Algodn = 20 subtracted from: % de Algodn 25 30 35
Lower -1.545 2.455 -8.345
Center 2.200 6.200 -4.600
Upper 5.945 9.945 -0.855
--------+---------+---------+---------+(----*---) (----*---) (---*----) --------+---------+---------+---------+-8.0 0.0 8.0 16.0
74
% de Algodn = 25 subtracted from: % de Algodn 30 35
Lower 0.255 -10.545
Center 4.000 -6.800
Upper 7.745 -3.055
--------+---------+---------+---------+(----*----) (----*---) --------+---------+---------+---------+-8.0 0.0 8.0 16.0
% de Algodn = 30 subtracted from: % de Algodn 35
Lower -14.545
Center -10.800
Upper -7.055
--------+---------+---------+---------+(----*---) --------+---------+---------+---------+-8.0 0.0 8.0 16.0
Paso 16 Verificar los resultados y trasladar la conclusin estadstica a una solucin prctica. Conclusin estadstica: Existe una diferencia significante entre las medias poblacionales. La media poblacional para el contenido de algodn de 30% es significativamente mayor que las medias poblacionales de los otros niveles de contenido de algodn. Solucin prctica: Usaremos el 30% de contendido de algodn para la fibra sinttica, lo cual proporcionar la mxima tensin, manteniendo al mismo tiempo las otras propiedades deseables.
Equipo integrado por: Ing. Gerardo Valdes Fuentes Ing. Rosa Isela Melndez Lpez Ing. Renato Elmer Vzquez Garca Lic. Jos Luis Chvez Dvila Maestra en Administracin y Liderazgo. Universidad Autnoma del Noreste.
7.- Bibliografa:
Estadstica para Administradores, Richard I. Levin & David S. Rubin. Editorial Prentice Hall www.wikipedia.com http://www.monografias.com/trabajos30/regresion-correlacion/regresioncorrelacion.shtml?monosearch http://www.uned.es/experto-metodos-avanzados/INGENIERIA1.pdf http://espanol.geocities.com/jefranco_2000mx/anova1.htm Minitab 15 (Versin de prueba obtenida de www.minitab.com). MeetMinitabEs.pdf (Obtenido de www.minitab.com)
75

Correlacion Series de Tiempo Distribucion Normal y ANOVA en Minitab 15

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Correlacion Series de Tiempo Distribucion Normal y ANOVA en Minitab 15

Cargado por

Copyright:

Formatos disponibles

Correlacin, Series de Tiempo, Distribucin Normal y Anlisis de Varianza. ndice 1.- Introduccin1 2.- MINITAB1 3.- Correlacin..2 4.

2.1 Caractersticas principales de MINITAB.

3.- Correlacin. Correlacin.

3.1 Anlisis de correlacin:

3.2 Coeficiente de determinacin.

3.3 Una interpretacin intuitiva de r

3.4 Coeficiente de correlacin.

3.5 Desarrollo en Minitab: CORRELACION

3.- Colocarse en el siguiente Men y opcin: Stat Basic Statistics Correlation

2.- Seleccione la opcin Con Regresin. (With Regression) y dar clic en OK

3. Seleccionar las variables de Gastos y Ganancias con un clic.

y posteriormente clic en OK para obtener la siguiente grfica de dispersin:

2.- Seleccionar las variables Y y X y clic OK.

Se desplegar la siguiente grfica que representa la funcin Y = 20 + 2X

3.8 Desarrollo de un Caso.

4.- Series de Tiempo en Minitab.

4. Series demogrficas: 5. Series de marketing: 6. Series de telecomunicacin: 7. Series de transporte:

4.4 Desarrollo en Minitab: SERIES DE TIEMPO.

2.- Introducir los datos a la hoja de trabajo de Minitab.

3.- Seleccionar: Stat

Time Series Plot

4.- Clic en Simple

7.- Minitab despliega la serie de tiempo del ndice de contaminacin.

3.- Clic en Time para ajustar la escala de tiempo

Clic OK 6.- Minitab despliega la grfica de la tendencia incluyendo los pronsticos.

4.5. MODELOS CLASICOS DE SERIES DE TIEMPO

4.6 ESTIMACIN DE LA TENDENCIA

3. T(t) = a + b ebt (Exponencial modificada)

4.T(t) = 0 + 1t ,...,+ mt (Polinomial)

5.T(t) = exp(a + b(rt)) (Gompertz 0 < r < 1)

1 , 0 < r <1 a + b( r t ) 6. T(t) =

Ao trimestre 1964: 3 4 1965: 1 2 3 4 1966: 1 2 3 4 1967: 1 2 3 4 1968: 1 2 3 4

1969: 1 2 3 4 1970: 1 2 3 4 1971: 1 2 3 4 1972: 1 2

Entonces, la recta de tendencia es:

4.7 Desarrollo en Minitab: ANALISIS DE TENDENCIA

3.- Seleccionar: Stat

Clic en Four in one.

Clic OK Minitab despliega la siguiente grfica.

4.8 SUAVIZAMIENTO. FILTROS LINEALES

Segn la frmula 2, el clculo sera el siguiente:

4.9 Desarrollo en Minitab: PROMEDIOS MOVILES.

3.- Seleccionar: Stat

5.- Minitab despliega la grfica con el promedio mvil.

5.- Distribucin Normal.

En resumen: entre ms grande es el valor de sigma () el nivel de defectos permitido es menor.

Uso de la tabla de distribucin de probabilidad normal estndar.

5.4 Desarrollo en Minitab: DISTRIBUCION NORMAL

3.- Se despliega la ventana de Probability Distribution Plots:

Clic en View Probability

4.- Seleccionar Distribucin Normal.

Introducir los valores de la Media (Mean) y la Desviacin Estndar (Standard deviation)

5.- Clic en Shaded Area,

Seleccionar X Value, Clic en Middle y proporcionar los valores de X1 y X2

6.- Minitab despliega la grfica de la distribucin normal con el valor de la sombreado.

5.5 Desarrollo de un Caso.

De 820 (la media) a 855 tenemos una probabilidad de 0.298

Seleccionar Shaded Area y X Value y proporcionar los valores de X1 y X2

6.1 Situaciones en las que podemos utilizar ANOVA.

6.2 Supuestos previos

6.3 Visin general

6.4 Ejemplo 1 de anlisis de varianza:

Tratamientos Error de muestreo Total

250 = 250/2 = 125 448 = 448/12 =37.33 698

--------+---------+---------+---------+(--------) (-------) (-------) (-------) --------+---------+---------+---------+-8.0 0.0 8.0 16.0

--------+---------+---------+---------+(-------) (-------) (---*----) --------+---------+---------+---------+-8.0 0.0 8.0 16.0

--------+---------+---------+---------+(--------) (-------) --------+---------+---------+---------+-8.0 0.0 8.0 16.0