Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlacion Series de Tiempo Distribucion Normal y ANOVA en Minitab 15
Correlacion Series de Tiempo Distribucion Normal y ANOVA en Minitab 15
- Series de Tiempo.17 5.- Distribucin Normal42 6.- ANOVA54 7.- Bibliografa75 1. Introduccin.
Este manual contiene el concepto, aplicacin y ejecucin en el sistema Minitab versin 15, de los temas de Correlacin, Series de Tiempo, Distribucin Normal y Anlisis de Varianza (ANOVA).
2.- MINITAB
Minitab (MINITAB es marca registrada de Minitab Inc.) es un programa de computadora diseado para ejecutar funciones estadsticas bsicas y avanzadas. Combina lo amigable del uso de Microsoft Excel con la capacidad de ejecucin de anlisis estadsticos Minitab pone a tu disposicin las herramientas necesarias para analizar tus datos y tomar decisiones con dichos datos para mejorar tus negocios. Minitab es una herramienta poderosa y fcil de usar, enfocada al anlisis de datos complejos y a la identificacin y resolucin de problemas relativos a procesos, por ello Minitab se ha convertido en un instrumento fundamental para todas aquellas compaas con procesos productivos que requieren de un software de anlisis para poder controlar fcilmente esos procesos o mejorar el rendimiento de sus cadenas de produccin. Minitab Statistical incluye cerca de 50 nuevas caractersticas con cambios mnimos en el interfaz, haciendo que el programa siga siendo igual de fcil de usar que en versiones anteriores. Algunas de las novedades ms interesantes son: Puedes asignar formulas a las columnas en la hoja de trabajo. Dibujo de graficas de probabilidad y distribucin. Y ms.
La ecuacin de estimacin apropiada para este caso es fcil de determinar. Puesto que la lnea de regresin pasa a travs del origen, sabemos que la interseccin Y es cero; y puesto que Y se incrementa en 4 cada vez que X se incrementa en 1, la pendiente debe ser igual a 4.
La lnea de regresin es: Para determinar el coeficiente de determinacin de muestra para la lnea de regresin, primero calculamos el numerador de la fraccin en la ecuacin de r.
Variacin de los valores de Y alrededor de la lnea de regresin = Como cada valor de Y est sobre la lnea de regresin la diferencia es 0 (0) = 0
Sustituimos los valores en la frmula encontramos que el coeficiente de determinacin de muestra es igual a + 1
De hecho r es igual a +1 siempre que la lnea de regresin sea un estimador perfecto. Una segunda forma extrema en la que las variables X y Y pueden relacionarse es aquella en que los puntos podran caer a distancias iguales en ambos lados de una lnea de regresin horizontal. A continuacin mostramos la grfica:
Sustituimos los valores en la frmula encontramos que el coeficiente de determinacin de muestra es igual a 0
Por lo tanto el valor de r es cero cuando no hay correlacin. Un r cercano a 1 indica una fuerte correlacin entre X y Y. Un r cercano a 0 indica que existe poca correlacin entre X y Y.
Se debe subrayar fuertemente que r mide solo la fuerza de una relacin lineal entre 2 variables. Por ejemplo, si tuviramos muchos puntos X y Y y todos cayeran en la circunferencia de un crculo, aunque dispersos aleatoriamente, claramente habra una relacin entre estos puntos. (todos caen en el mismo crculo), Pero si calculamos r resultara estar cerca de 0, porque los puntos no tienen una relacin lineal entre s. Para evitar estos clculos, los estadsticos han desarrollado una versin de atajo, usando los valores que habramos determinado de antemano en el anlisis de regresin. La frmula es:
Para ver que esta frmula es un atajo, la aplicaremos a nuestra anterior regresin que relaciona los gastos de inversin y desarrollo con las ganancias. Recuerde que cuando encontramos los valores para a y b la lnea de regresin para este problema es:
3,600 + 2,000 5,400 = ------------------------------5,642 5,400 200 = ------ = 0.826 Coeficiente de determinacin de muestra 242 Por tanto, podemos concluir que la variacin en los gastos de investigacin y desarrollo (la variable independiente X) explica 82.6 % de la variacin en las ganancias anuales (la variable dependiente Y)
En el problema anterior encontramos que el Coeficiente de determinacin de muestra es r = 0.826, para encontrar r sustituimos este valor en la ecuacin: r = r = 0.826 = 0.909 Coeficiente de correlacin de muestra La relacin entre las dos variables es directa y la pendiente es positiva, por tanto el signo de r es positivo. Supongamos que la cantidad gastada en boletos de cine correlaciona 0.6 con el ingreso familiar. A primera vista, 0.6 parece ser una correlacin bastante fuerte ya que esta ms cerca de 1 que de 0. Pero esto explica slo el 36% (0.6 x 0.6 = 0.36) de la variacin en la cantidad de dinero que las familias gastan en pelculas. Esto sugiere que una estrategia de comercializacin diseada para atraer familias con altos ingresos pasara por alto una gran cantidad de clientes potenciales.
4.- Seleccionar las variables a correlacionar: Gastos y Ganancias dando clic en cada una hasta que aparezcan en el recuadro de variables, posteriormente dar clic en el botn OK.
5.- Minitab calcula el resultado utilizando la Correlacin de Pearson. Donde en este caso tenemos una correlacin de .909 que como se explic anteriormente nos indica que los Gastos de Investigacin y las ganancias estn correlacionados. El p-value (valor de probabilidad) nos indica la siguiente hiptesis: Ho: cuando p-value > 0.05 H1: cuando p-value < 0.05
10
3.6 DIAGRAMA DE DISPERSION. 1. Para generar el diagrama de dispersin: Colocarse en el siguiente Men y opcin: Graph Scatterplot
11
12
3.7 LINEA DE REGRESION Y ECUACION DE REGRESION. 1.- Para generar el diagrama de dispersin con la lnea de regresin y la ecuacin de regresin: Colocarse en el siguiente Men y opcin: Regression Fitted Line Plot Stat
13
14
ANLISIS DE DATOS: Se van a utilizar las siguientes variables: Variables Independientes: 1.- Gastos de Publicidad 2.- Comisin de vendedores Variable dependiente: - Ventas
De acuerdo a los cuadros podemos decir: - La variable que ms relacin tiene con la Variable Dependiente es decir las ventas es la variable Gastos de Publicidad - En cuanto a la variable Comisiones de vendedores podemos decir que no tiene relacin relevante con las Ventas.
La variable que ms relacin tiene con las ventas es la variable Gastos de Publicidad.
15
- En cuanto a la variable Comisiones de vendedores podemos decir que no tiene relacin relevante con las Ventas:
16
1. Series econmicas:
2. Series Fsicas:
3. Geofsica:
Uno de los problemas que intenta resolver las series de tiempo es el de prediccin. Esto es dado una serie {x(t1),...,x(tn)} nuestros objetivos de inters son describir el comportamiento de la serie, investigar el mecanismo generador de la serie temporal, buscar posibles patrones temporales que permitan sobrepasar la incertidumbre del futuro. En adelante se estudiar como construir un modelo para explicar la estructura y prever la evolucin de una variable que observamos a lo largo del tiempo. La variables de inters puede ser macroeconmica (ndice de precios al consumo, demanda de electricidad, series de exportaciones o importaciones, etc.), macroeconmica (ventas de una empresa, existencias en un almacn, gastos en publicidad de un sector), fsica (velocidad del viento en una central elica,
17
temperatura en un proceso, caudal de un ro, concentracin en la atmsfera de un agente contaminante), o social (nmero de nacimientos, matrimonios, defunciones, o votos a un partido poltico). 4.2 DEFINICIN DE SERIE DE TIEMPO En muchas reas del conocimiento las observaciones de inters son obtenidas en instantes sucesivos del tiempo, por ejemplo, a cada hora, durante 24 horas, mensuales, trimestrales, semestrales o bien registradas por algn equipo en forma continua. Llamamos Serie de Tiempo a un conjunto de mediciones de cierto fenmeno o experimento registradas secuencialmente en el tiempo. Estas observaciones sern denotadas por {x(t1), x(t2), ..., x(tn)} = {x(t) : t T R} con x(ti) el valor de la variable x en el instante ti. Si T = Z se dice que la serie de tiempo es discreta y si T = R se dice que la serie de tiempo es continua. Cuando ti+1 - ti = k para todo i = 1,...,n-1, se dice que la serie es equiespaciada, en caso contrario ser no equiespaciada. En adelante se trabajar con series de tiempo discreta, equiespaciadas en cuyo caso asumiremos y sin perdida de generalidad que: {x(t1), x(t2), ..., x(tn)}= {x(1), x(2), ..., x(n)}. Hay cuatro tipos de cambio o variacin implicados en el anlisis de series temporales, estos son: 1. Tendencia Secular. 2. Fluctuacin Cclica. 3. Variacin temporal o estacional. 4. Variacin irregular. Tendencia Secular: El valor de la variable tiende a aumentar o disminuir en un periodo muy largo. El incremento estable en los costos de vida registrados en el Indice de Precios al Consumidor (IPC) es un ejemplo de tendencia secular.
Fluctuacin Cclica: El ejemplo ms comn de fluctuacin cclica es el ciclo de negocios. A travs del tiempo, hay aos en que el ciclo de negocios llega a un pico por encima de la lnea de tendencia. En otros tiempos, la actividad de los negocios parece caer, llegando a un punto bajo la lnea de tendencia. El tiempo que transcurre entre picos o puntos bajos es de al menos 1 ao y puede llegar a durar hasta 15 o 20 aos. (Automviles, celulares)
18
Variacin temporal: Este tipo de variacin implica patrones de cambio en el lapso de un ao que tienden a repetirse anualmente. Ejemplo, la gripa en invierno, la fiebre en verano.
Variacin Irregular: El valor de una variable puede ser completamente impredecible, es decir, cambia de manera aleatoria. Ejemplo: Conflictos a nivel mundial, como los efectos del conflicto en el Medio Oriente en 1973, la situacin en Irn en 1979-1981, el colapso de la OPEP en 1986 y la situacin en Irak en 1990 sobre los precios de la gasolina en Estados Unidos son ejemplos de variacin irregular.
19
4.3 PRIMER PASO AL ANALIZAR CUALQUIER SERIE DE TIEMPO El primer paso en el anlisis de series de tiempo, consiste en graficar la serie. Esto nos permite detectar las componentes esenciales de la serie. El grfico de la serie permitir: a) Detectar Outlier: se refiere a puntos de la serie que se escapan de lo normal. Un outliers es una observacin de la serie que corresponde a un comportamiento anormal del fenmeno (sin incidencias futuras) o a un error de medicin. Se debe determinar desde fuera si un punto dado es outlier o no. Si se concluye que lo es, se debe omitir o reemplazar por otro valor antes de analizar la serie. Por ejemplo, en un estudio de la produccin diaria en una fbrica se present la siguiente situacin ver figura 1.1:
Figura 1.1 Los dos puntos enmarcados en un crculo parecen corresponder a un comportamiento anormal de la serie. Al investigar estos dos puntos se vio que correspondan a dos das de paro, lo que naturalmente afect la produccin en esos das. El problema fue solucionado eliminando las observaciones e interpolando. b) Permite detectar tendencia: la tendencia representa el comportamiento predominante de la serie. Esta puede ser definida vagamente como el cambio de la media a lo largo de un periodo (ver figura 1.2).
Figura 1.2 c) Variacin estacional: la variacin estacional representa un movimiento peridico de la serie de tiempo. La duracin de la unidad del periodo es generalmente menor que un ao. Puede ser un trimestre, un mes o un da, etc (ver figura 1.3). Matemticamente, podemos decir que la serie representa variacin estacional si existe un nmero s tal que x(t) = x(t + ks). Las principales fuerzas que causan una variacin estacional son las condiciones del tiempo, como por ejemplo:
20
1) en invierno las ventas de helado 2) en verano la venta de lana 3) exportacin de fruta en marzo. Todos estos fenmenos presentan un comportamiento estacional (anual, semanal, etc.)
Figura 1.3 d) Variaciones irregulares (componente aleatoria): los movimientos irregulares (al azar) representan todos los tipos de movimientos de una serie de tiempo que no sea tendencia, variaciones estacionales y fluctuaciones cclicas. Ejemplo: A continuacin presentamos los datos que describen el ndice de contaminacin del aire (en partculas por milln en el aire) de una ciudad de occidente. Ao 1997 1982 1987 1992 Indice de contaminacin 220 350 800 2450 Representaremos los datos grficamente en Minitab, obtendremos la tendencia, la ecuacin lineal y el pronstico para los siguientes 10 aos.
21
Time Series
22
Clic OK
5.- Con un clic seleccionamos la columna con los datos de la serie de tiempo. (El ndice de contaminacin)
6.- Clic en Time/Scale para ajustar la escala de tiempo Clic en Calendar, Seleccionamos Year.
Iniciamos en el ao 1977 con incrementos de 5 aos, por eso introducimos 5 en Data Increment.
Clic OK
23
24
Para obtener la grfica de tendencia y la ecuacin lineal favor de seguir los siguientes pasos:
1.- Seleccionar: Stat Time Series Trend Analysis.
2.- En la ventana Trend Analysis seleccionamos con un clic la variable, dejamos el Model Type como Linear
25
Clic OK 4.- Clic Ok en la ventana Trend Analysis para obtener la grfica de tendencia y el modelo de tendencia lineal.
26
5.- Para generar pronsticos, Clic en Generate forecast. En este caso buscamos 2 pronsticos, teclear 2 en Number of forecast.
27
Un modelo clsico para una serie de tiempo, supone que una serie x(1), ..., x(n) puede ser expresada como suma o producto de tres componentes: tendencia, estacionalidad y un trmino de error aleatorio. Existen tres modelos de series de tiempos, que generalmente se aceptan como buenas aproximaciones a las verdaderas relaciones, entre los componentes de los datos observados. Estos son: 1. Aditivo: X(t) = T(t) + E(t) + A(t) 2. Multiplicativo: X(t) = T(t) E(t) A(t) 3. Mixto: X(t) = T(t) E(t) + A(t) Donde: X(t) serie observada en instante t T(t) componente de tendencia E(t) componente estacional A(t) componente aleatoria (accidental) Una suposicin usual es que A(t) sea una componente aleatoria o ruido blanco con media cero y varianza constante. Un modelo aditivo (1), es adecuado, por ejemplo, cuando E(t) no depende de otras componentes, como T(t), s por el contrario la estacionalidad vara con la tendencia, el modelo ms adecuado es un modelo multiplicativo (2). Es claro que el modelo 2 puede ser transformado en aditivo, tomando logaritmos. El problema que se presenta, es modelar adecuadamente las componentes de la serie. La figura 2.1 ilustra posibles patrones que podran seguir series representadas por los modelos (1), (2) y (3).
Figura 2.1
28
1) 1) Ajustar una funcin del tiempo, como un polinomio, una exponencial u otra funcin suave de t. 2) 2) Suavizar (o filtrar) los valores de la serie. 3) 3) Utilizar diferencias. 4.6.1 AJUSTE DE UNA FUNCIN Los siguientes grficos ilustran algunas de las formas de estas curvas.
bt
1.T(t) = a + bt
(Lineal)
2.T(t) = a e (Exponencial)
Nota: i. La curva de tendencia debe cubrir un periodo relativamente largo para ser una buena representacin de la tendencia a largo plazo. ii. La tendencia rectilnea y exponencial son aplicable a corto plazo, puesto que una curva S a largo plazo puede parecer una recta en un perodo restringido de tiempo (por ejemplo).
Figura 2.2 En la figura 2.2 ambas curvas (recta y Gompertz) ajustan bien pero las proyecciones divergen enormemente a largo plazo.
29
Ejemplo 1: En la tabla 2.1 se presentan los datos trimestrales de unidades habitacionales iniciadas en los Estados Unidos desde el tercer trimestre de 1964 hasta el segundo trimestre de 1972 [1]. (Es necesario advertir que para el anlisis de tendencia el periodo que se considera debera ser ms largo. Sin embargo, ya que el propsito principal es el de ilustrar el mtodo de descomposicin y las tcnicas para inferir partiendo de los elementos as descompuestos, la insuficiencia de los datos no tiene por qu interesar.) Tabla 2.1: Nuevas unidades habitacionales comenzadas en los Estados Unidos del tercer trimestre de 1964 al segundo trimestre de 1972 (en miles de unidades). Ao I II III IV Total Anual 1964 398 352 1965 283 454 392 345 1,474 1966 274 392 290 210 1,166 1967 218 382 382 340 1,322 1968 298 452 423 372 1,545 1969 336 468 387 309 1,500 1970 264 399 408 396 1,467 1971 389 604 579 513 2,085 1972 510 661 Fuente: U.S. Department of Comerse, Survey of Current Bussiness. Sea t cada uno de los 32 trimestres que van de 1964 a 1972, o sea que t = 1 para el tercer trimestre de 1964, t = 2 para el cuarto trimestre, y as sucesivamente. As que el dominio de definicin de t es el conjunto de los enteros de 1 a 32 inclusive. Sea T(t) las iniciaciones de viviendas trimestralmente. Los valores de t y T(t) se dan en la tabla 2.2. Para calcular los valores de a y de b en la recta de tendencia: T(t) = a + bt Se obtienen las siguientes cifras a partir de los datos de la tabla 2.1. Tabla 2.2: Clculo de la tendencia de las viviendas comenzadas en los Estados Unidos del tercer trimestre de 1964 al segundo trimestre de 1972
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
T(t) Tendencia 398 291,73 352 298,07 283 304,41 454 310,75 392 317,09 345 323,43 274 329,77 392 336,11 290 342,45 210 348,79 218 355,13 382 361,47 382 367,81 340 374,15 298 380,49 452 386,83 423 393,17 372 399,51
30
19 20 21 22 23 24 25 26 27 28 29 30 31 32
336 468 387 309 264 399 408 396 389 604 579 513 510 661
405,85 412,19 418,53 424,87 431,21 437,55 443,89 450,23 456,57 462,91 469,25 475,59 481,93 488,27
Figura 2.3
31
Time Series
Trend Analysis.
4.- En la ventana Trend Analysis seleccionamos con un clic la variable, dejamos el Model Type como Linear y clic OK
32
5. Minitab despliega la siguiente grfica, que como podemos observar es similar a la presentada en el desarrollo del ejercicio.
6.- Si deseamos obtener 4 graficas en una sola ventana, seleccionar la opcin Graphs
33
34
Figura 2.4 Lo que hacemos es usar una expresin lineal que transforma la serie X(t) en una serie suavizada Z(t): Z(t) = F(X(t)), t = 1,...,n
F
X(t) Z(t)
de tal modo que F(X(t)) = T(t). La funcin F se denomina Filtro Lineal. El filtro lineal ms usado es el promedio mvil. 2.2.2.1 PROMEDIOS MVILES El objetivo es eliminar de la serie las componentes estacionales y accidentales. Para una serie mensual con estacionalidad anual (s = 12), la serie suavizada se obtiene,
Z (k ) =
Z ( k 6) + Z ( k 5) + + Z (k + 5) + 1 2 Z ( k + 6) , 7 k n6 12 (1)
Para una serie trimestral, con estacionalidad anual (s = 4), la serie suavizada est dada por
Z (k ) =
Z ( k 2) + Z ( k 1) + Z ( k ) + Z ( k + 1) + 1 2 Z ( k + 2) , 3 k n2 4
(2)
A este procedimiento se les llama: filtro simtrico finito. Nota: se suaviza cuando existen muchos cambios bruscos, movimientos irregulares.
35
Ejemplo 2: A partir de los datos del ejemplo1, se calcula un promedio mvil sumando los valores para un cierto nmero de periodos sucesivos y dividiendo luego la suma as obtenida por el nmero de perodos abarcados. En este caso se trata de una serie trimestral y para ello se ocupa la frmula (2). Tabla 2.3: Clculo del Promedio Mvil centrado de cuatro trimestres de las iniciaciones de viviendas en los EEUU, tercer trimestre 1964 a segundo trimestre de 1972 (en miles de unidades) Promedio Mvil Ao por Datos Total Mvil en Promedio Mvil de Centrado de cuatro trimestre Originales Y cuatro trimestres cuatro trimestres trimestres (1) (2) (3) (4) (5) 1964: 3 398 4 352 1965: 1 283 1.487 372 371 2 454 1.481 370 369 3 392 1.474 369 367 4 345 1.465 366 359 1966: 1 274 1.403 351 338 2 392 1.301 325 308 3 290 1.166 292 285 4 210 1.110 278 276 1967: 1 218 1.100 275 287 2 382 1.192 298 314 3 382 1.322 331 341 4 340 1.402 351 359 1968: 1 298 1.472 368 373 2 452 1.513 378 382 3 423 1.545 386 391 4 372 1.583 396 398 1969: 1 336 1.599 400 395 2 468 1.563 391 383 3 387 1.500 375 366 4 309 1.428 357 348 1970: 1 264 1.359 340 342 2 399 1.380 345 356 3 408 1.467 367 382 4 396 1.592 398 424 1971: 1 389 1.797 449 471 2 604 1.968 492 507 3 579 2.085 521 536 4 513 2.206 552 559 1972: 1 510 2.263 566 2 661
En la tabla 2.3, por ejemplo, el promedio mvil de cuatro trimestres para el primer trimestre de 1965 se obtiene sumando los valores del tercer y cuarto trimestres de 1964 y el primero y segundo trimestres de 1965 y dividiendo luego la suma por 4. El promedio para el segundo trimestre de 1965 se obtiene sumando los valores del cuarto trimestre de 1964 con los del primero, segundo y tercer trimestres de 1965 y luego dividiendo la suma por 4. As pues, para cada promedio sucesivo, se resta el trimestre que viene primero y se suma el ltimo siguiente.
36
La columna 4 de la tabla 2.3 muestra los promedios mviles de cuatro trimestres obtenidos, partiendo de los datos iniciaciones de viviendas para el 1964 a 1972. El promedio mvil no elimina las fluctuaciones muy acentuadas de la serie, pero reduce sustancialmente la amplitud de las variaciones de los datos originales. Si en el clculo de un promedio mvil entra un nmero impar de perodos, el proceso ser ms sencillo puesto que el nmero de perodos antes y despus del perodo para el cual se calcula el promedio son iguales. Si el nmero de periodos es par, como en este ejemplo, no se puede utilizar el mismo nmero de perodos antes y despus de un periodo especificado. Por tanto, el promedio mvil ha de quedar a mitad de camino entre los valores de dos perodos consecutivos y no se relaciona con ningn perodo. Este problema se puede resolver calculando un promedio mvil centrado en la serie, lo cual se logra obteniendo primero un promedio mvil centrado de dos trimestres de los promedios mviles ya obtenidos. El primer promedio mvil centrado es la media de los dos primeros promedios mviles de cuatro trimestres, el segundo promedio mvil centrado es la media de los promedios mviles de cuatro trimestres segundo y tercero, etc. De esta manera, habr un nmero igual de perodos despus y antes del periodo especificado para el cual se est calculando el promedio mvil centrado. Los promedios mviles centrados se ven en la columna 5 de la tabla 2.3.
+ 352 + 283+ 454 + 392 4 Z (3) = 2 398 + 2 * (352 + 283 + 454) + 392 Z (3) = 4 * ( 2)
398 + 352 + 283 + 454 4
Z (1) + Z (2) + Z (3) + Z (4) + 12 Z (5) 4 398 + 352 + 283 + 454 + 392 2 Z (3) = 2 = 371 4 Z (3) =
1 2
Este valor corresponde al Promedio Mvil Centrado que se muestra en la columna 5. La figura 2.5 muestra grficamente el ajuste por a travs del promedio mvil, segn tabla 2.3, donde el segmento negro representa la serie original y el segmento azul la serie suavizada.
Figura 2.5
37
38
Time Series
Moving Average...
39
4.- Seleccionar con un clic la variable con las series de tiempo y colocar la MA length. En este caso es igual a 4 (4 trimestres por ao). Clic OK
40
4.10 Resumen
Se llama Serie de Tiempo, a un conjunto de mediciones de cierto fenmeno o experimento registradas secuencialmente en el tiempo, por ejemplo a cada hora, mensualmente, trimestralmente, semestralmente, etc.. En este apunte se trabaj con series de tiempo discreto, equiespaciadas en cuyo caso se asume que: : {x(t1), x(t2), ..., x(tn)}= {x(1), x(2), ..., x(n)}. Debido al carcter introductorio se restringi al caso de series de tiempo univariadas. Al analizar una serie de tiempo, lo primero que se debe hacer es graficar la serie. Esto nos permite detectar las componentes esenciales de la serie. El grfico de la serie permitir: detectar Outlier, detectar tendencias, variacin estacional, variaciones irregulares (o componente aleatoria). Un modelo clsico para una serie de tiempo, puede ser expresada como suma o producto de tres componentes: tendencia, estacional y un trmino de error aleatorio. Existen tres modelos de series de tiempos. Estos son: 1. Aditivo: X(t) = T(t) + E(t) + A(t) 2. Multiplicativo: X(t) = T(t) E(t) A(t) 3. Mixto: X(t) = T(t) E(t) + A(t) Con el fin de obtener un modelo, es necesario estimar la tendencia y la estacionalidad. Para estimar la tendencia, se supone que la componente estacional no est presente. La estimacin se logra al ajustar a una funcin de tiempo a un polinomio o suavizamiento de la serie a travs de los promedios mviles. Para estimar la estacionalidad se requiere haber decidido el modelo a utilizar (mixto o aditivo). Una vez estimada la tendencia y la estacionalidad se esta en condiciones de predecir. Los mtodos revisados en este apunte son de naturaleza descriptiva, por lo que el juicio y el conocimiento del fenmeno juegan un rol importante en la seleccin del modelo. Los mtodos clsicos tienen la desventaja que se adaptan a travs del tiempo, lo que implica que el proceso de estimacin debe volver a iniciarse frente al conocimiento de un nuevo dato.
41
5.1 Caractersticas:
1.- La curva tiene un solo pico, por lo tanto se dice que es unimodal.
2.- La media, la mediana y la moda de los datos se encuentran en el centro de la curva y tienen el mismo valor.
3.- Los dos extremos de la distribucin normal de probabilidad se extienden indefinidamente y nunca tocan el eje horizontal.
Nota: La mayor parte de las poblaciones reales no se extienden de manera indefinida en ambas direcciones, pero para estas poblaciones, la distribucin normal es una aproximacin conveniente.
42
EN RESUMEN: LA CURVA DE DISTRIBUCION NORMAL: 1. ES UNIMODAL. 2. LA MAYOR CANTIDAD DE DATOS DE LA DISTRIBUCION CAE EN EL CENTRO DE LA CURVA. 3. LA MEDIA, LA MEDIANA Y LA MODA SE ENCUENTRAN EN EL MISMO PUNTO. 4. LOS DOS EXTREMOS DE LA DISTRIBUCION SE EXTIENDEN INDEFINIDAMENTE.
Para definir, entender y aplicar una distribucin normal de probabilidad es necesario conocer dos parmetros: La media ( ): Es la suma de los datos divididos entre el nmero de datos. La desviacin estndar(): Es la variacin de los datos con respecto a la media ():
No importa cuales sean los valores de y s para una distribucin de probabilidad normal, el rea total bajo la curva es 1.00, de manera que podemos pensar en reas bajo la curva como si fueran probabilidades.
43
x = Valor de la variable aleatoria que nos preocupa. = Media de la distribucin de la variable aleatoria. = Desviacin estndar de la distribucin. z = Nmero de desviaciones estndar que hay desde x a la media de la distribucin.
5.3 EJEMPLO:
Existe un programa de entrenamiento diseado para mejorar la calidad de las habilidades de supervisin de los supervisores de la lnea de produccin. Debido a que el programa es autoadministrado, los supervisores requieren un nmero diferente de horas para terminarlo. Un estudio de los participantes anteriores indica que el tiempo medio que se lleva completar el programa es de 500 horas, y que esta variable aleatoria normalmente distribuida tiene una desviacin estndar de 100 horas.
44
Cul es la probabilidad de que un participante elegido al azar requiera ms de 500 horas para completar el programa?
Respuesta: La mitad del rea bajo la curva est localizada a ambos lados de la media de 500 horas. Si la probabilidad mxima de que un evento ocurra es 1 y en este caso nuestra media esta en 500 y ocupa exactamente la mitad de nuestra curva entonces la probabilidad es la mitad de el rea de la curva, o sea 0.5
Cul es la probabilidad de que un participante elegido al azar se tome entre 500 y 650 horas para completar el programa de entrenamiento?
x = Valor de la variable aleatoria que nos preocupa. = Media de la distribucin de la variable aleatoria. = Desviacin estndar de la distribucin. z = Nmero de desviaciones estndar que hay desde x a la media de la distribucin.
Buscando en la tabla para distribuciones normales de probabilidad encontramos que para z = 1.5 la probabilidad es = 0.4332
45
46
Clic OK
47
48
Clic OK
probabilidad
Como en el ejemplo anterior, tenemos que la probabilidad de que un participante elegido al azar se tome entre 500 y 650 horas para completar el programa de entrenamiento es de .433
49
50
1.2.3.4.-
Abrir el Minitab. Colocarse en el siguiente Men y opcin: Graph Probability Distribution Plot Clic en View Probability Seleccionar Distribucin Normal. Introducir la Media (Mean) y la Desviacin Estndar (Standard deviation)
Clic en Shaded Area. Seleccionar X Value, Clic en Middle y proporcionar los valores de X1 y X2
Clic OK
51
7. Minitab despliega la grfica de la distribucin normal con el valor de la probabilidad sombreado 0.424 42.4 % el mismo resultado que haciendo el ejercicio de forma manual.
52
Minitab despliega la grfica de la distribucin normal con el valor de la probabilidad sombreado: 0.0722 o 7.2 % el mismo resultado que haciendo el ejercicio de forma manual
53
6. Anlisis de varianza
En estadstica, anlisis de varianza (ANOVA, segn terminologa inglesa) es una coleccin de modelos estadsticos y sus procedimientos asociados. El anlisis de varianza sirve para comparar si los valores de un conjunto de datos numricos son significativamente distintos a los valores de otro o ms conjuntos de datos. El procedimiento para comparar estos valores est basado en la varianza global observada en los grupos de datos numricos a comparar. Tpicamente, el anlisis de varianza se utiliza para asociar una probabilidad a la conclusin de que la media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones. Permite probar la significancia de las diferencias entre ms de dos medias muestrales.
54
La tcnica fundamental consiste en la separacin de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un anlisis de regresin lineal) SSTotal = SSError + SSFactores El nmero de grados de libertad (gl) puede separarse de forma similar y se corresponde con la forma en que la distribucin chi-cuadrado describe la suma de cuadrados asociada. glTotal = glError + glFactores
Modelo de efectos fijos El modelo de efectos fijos de anlisis de la varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material analizado a varios factores, cada uno de los cuales le afecta slo a la media, permaneciendo la "variable respuesta" con una distribucin normal. Modelo de efectos aleatorios Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren diferencias incomparables en el material o grupo experimental. El ejemplo ms simple es el de estimar la media desconocida de una poblacin compuesta de individuos diferentes y en el que esas diferencias se mezclan con los errores del instrumento de medicin. Grados de libertad Por grados de libertad "degrees of freedom" entendemos el nmero efectivo de observaciones que contribuyen a la suma de cuadrados en un ANOVA, es decir, el nmero total de observaciones menos el nmero de datos que sean combinacin lineal de otros. Pruebas de significacin El anlisis de varianza lleva a la realizacin de pruebas de significacin estadstica, usando la denominada distribucin F de Snedecor.
55
Calificaciones 79 76 68 81 88 73 70 82 71
Tabla de resumen
F requerido Fuente de variacin Grados de Suma de Cuadrado medio libertad cuadrados F Observado 5% = 125/37.33 = 3.35 3.88 1% 6.93
2 12 14
El nmero total de gl para total es el nmero de observaciones -1 = 15-1 = 14 El nmero de grados de libertad para los tratamientos es tratamientos -1 = 3-1 =2 Los grados de libertad para el error de muestreo son gl totales - gl de los tratamientos = 14 -2=12 Termino de correccin es la sumatoria total de las observaciones elevadas al cuadrado y divididas entre el numero total de observaciones: = 1200 =1, 440,000 / 15 = 96,000 LA SCT es igual a sumar las observaciones al cuadrado y restarles el trmino de correccin ( C ) lo que es igual a: = (86) + (79) + .......+ (81) = 96698 - 96000 = 698 LA SCA es igual a elevar al cuadrado la sumatoria de cada tratamiento/ n y restarle el termino de correccin ( C ) = 160 000/ 5 + 180625/5 + 140625/5 - 96000 = 250 LA SCE = SCT - SCA = 698 - 250 = 448 Los valores del F requerido se obtienen de la tabla para distribuciones F con un 0.05 del rea en el extremo derecho y de la tabla para distribuciones F con un 0.01 del rea en el extremo derecho. Conclusin: Dado que la F observada es menor que la F requerida al nivel de significancia del 5% se concluye que no existe ningn efecto asociado con los mtodos de instruccin y por lo tanto que las diferencias entre la medias no son significativas al nivel del 5%.
56
ANOVA
One-Way (Unstacked)
57
4.- Minitab despliega la ventana One-Way Analysis of Variance Seleccione con un clic las respuestas en columnas separadas. El nivel de confianza es del 95 %
5.- Para revisar la configuracin de las grficas clic en Graphs. Clic Three in one (3 en 1) Clic OK
58
El anlisis de varianza La primera fila en la tabla del anlisis de varianza contiene todas las estadsticas asociadas con el factor. La siguiente fila contiene todas las estadsticas asociadas con el error aleatorio (error). Los grados de libertad Los grados de libertad (DF) se refieren al nmero de valores usados para calcular la suma de los cuadrados (SS) para cada fuente. La suma de cuadrados La suma de cuadrados (SS) es la medida de la cantidad de variabilidad que cada fuente contribuye a los datos. Observe que el total de variabilidad en los datos (SS suman 698) es igual al SS para el factor (250) ms el SS para el Error (448). Media cuadrada (MS) para cada fuente es igual al SS dividi por el DF. El MS para el factor es una estimacin del promedio de la media junto con el grupo de variabilidad. El MS para el error es una estimacin del promedio dentro del grupo. F-estadstica Es calculado como el MS para el factor dividido por el MS para el error. Cuando las diferencias entre el nivel de factor de la media es similar a las diferencias entre las observaciones de cada nivel. F ser cerrado a 1. Si la variabilidad entre el nivel de factor de la media es ms larga que la variabilidad entre las observaciones dentro del factor, F ser mayor que 1. El P-value: Si el valor de p (p-value) de una prueba estadstica es menor que tu alfa, entonces se debe rechazar la hiptesis nula.
59
Conclusin: Dado que el P value es mayor que el alfa de 5% se acepta la hiptesis nula y se concluye que no existe ningn efecto asociado con los mtodos de instruccin y por lo tanto que las diferencias entre la medias no son significativas al nivel del 5%. 95% CIs individuales Para la Media Para cada nivelado de tu factor MINITAB despliega el intervalo de confianza., As como lo siguiente las estadsticas: N--------- Nmero de observaciones. Mean--- Media de las observaciones. StDev--- Desviacin estndar de las observaciones
Versus Fits
Histogram
3 Frequency
0 -8 -4 0 Residual 4 8
Interpretando los resultados La grafica de probabilidad normal Usa la grafica de probabilidad normal de la residual para verificar que tu residual no este desviado sustancialmente de la distribucin normal. Si la residual viene de la distribucin normal, los puntos seguirn una lnea recta. Si la residual no viene de la distribucin normal, los puntos no seguirn una lnea recta.
Basado en esta grafica, es razonable asumir que la residual de los datos no est desviada sustancialmente de la distribucin normal.
60
Interpretando los resultados Residuales contra fits. Use la grafica de la residual versus las fits para verificar que las siguientes suposiciones han sido encontradas: Variaciones constantes a travs de la combinacin de todos los factores. No estn fuera de lnea los datos. Si t ves cualquier tipo de patrn en la grafica, una de estas suposiciones encontradas ha sido violada. La siguiente tabla indica los tipos de patrones que puedes ver Los patrones: La extensin desigual de las residuales a travs de los diferentes valores ajustados. Un punto est situado muy lejos del cero. Indica La variacin de tu residual no es constante.
Fuera de lnea.
Alternativas
Se puede usar un histograma de la residual para evaluar la normalidad. Sin embargo la grafica de probabilidad normal es generalmente fcil de interpretar, especialmente para muestras pequeas.
61
A la vista de estos datos, puede inferirse que existen diferencias significativas entre los tres fertilizantes a nivel alfa = 0.05? Se trata de un Anlisis de Varianza para un factor en un diseo completamente aleatorio, con el que se quiere contrastar la hiptesis nula de igualdad de los efectos medios de los tres fertilizantes, , frente a la alternativa de no ser los tres iguales.
Como en todos los contrastes de este tipo, lo primero que debemos determinar es la tabla de ANOVA , la cual es:
Para calcular la suma de cuadrados SSTi, partiendo de la tabla de datos del enunciado, calculamos, en una ltima columna, los totales de cada tratamiento (totales por filas)
62
Sus grados de libertad son igual al nmero de tratamientos menos uno, r -1 = 3 - 1 = 2 La suma total de cuadrados es igual a la suma de los cuadrados de las observaciones menos el valor antes calculado T/n,
= 39 + 33 + + 26 + 35 - 17408.067 = 17617 17408.067 = 208.933 Sus grados de libertad son igual al nmero de tratamientos menos uno, n1 = 15-1 = 14 Por ltimo la suma residual de cuadrados se calcula como diferencia de las otras dos sumas de cuadrados antes calculadas:
63
= 208.933 22.533 = 186.4 Sus grados de libertad se calculan tambin como diferencia de los grados de libertad de las otras dos sumas de cuadrados que sirvieron para obtener SSE; es decir, (n-1)(r-1)=14-2= 12 De esta forma, determinamos las sumas de cuadrados y los grados de libertad de las tres fuentes de variacin que forman la tabla de Anlisis de Varianza. Los cuadrados medios correspondientes a cada fuente de varianza se determinan ahora, simplemente, dividiendo cada suma de cuadrados por sus grados de libertad: Cuadrado medio correspondiente a los fertilizantes: SSTi 22.533 ------- = ----------- = 11.266 r- 1 2 Cuadrado medio correspondiente a los fertilizantes:
SSE = ------n- r
186.4 -------12
= 15.333
Finalmente, el estadstico a utilizar en el contraste, se calcula dividiendo los cuadrados medios antes determinados: SSTi/(r -1) 11.266 F = -------------- = ----------- = 0.73 SSE/(n r) 15.333 Todos estos clculos se recogen en la tabla ANOVA siguiente:
F. de variacin
Grados de libertad 2 12 14
Cuadrados medios
Estadstico
11.266 15.533
F = 0.73
El estadstico F tiene, si es cierta la hiptesis nula de igualdad de los efectos medios de los tres fertilizantes, una distribucin F de Snedecor con grados de libertad igual al par formado por los grados de libertad correspondientes a las fuentes de variacin de los Fertilizantes y Residual, antes determinados, (r-1, n-r)= (2,12), por lo que para determinar el punto crtico, a un nivel de significacin alfa = 0.05, buscaremos en la tabla de la F de Snedecor el valor F(2,12);0.05 = 3.8853. Al ser F = 0.73 menor que dicho punto crtico, se acepta Ho concluyendo con la no existencia de diferencias significativas entre los tres fertilizantes.
64
ANOVA
One-Way (Unstacked)
65
4.- Minitab despliega la ventana One-Way Analysis of Variance Seleccione con un clic las respuestas en columnas separadas. El nivel de confianza es del 95 %
5.- Para revisar la configuracin de las grficas clic en Graphs. Clic Three in one (3 en 1) Clic OK
66
Versus Fits
Histogram
3 Frequency
0 -6 -4 -2 0 2 Residual 4 6
67
Conclusin: Dado que el P-value es mayor que el alfa de 5% se acepta la hiptesis nula concluyendo con la no existencia de diferencias significativas entre los tres fertilizantes. El estadstico F tiene, si es cierta la hiptesis nula de igualdad de los efectos medios de los tres fertilizantes, una distribucin F de Snedecor con grados de libertad igual al par formado por los grados de libertad correspondientes a las fuentes de variacin de los Fertilizantes y Residual, antes determinados, (r-1, n-r)= (2,12), por lo que para determinar el punto crtico, a un nivel de significacin alfa = 0.05, buscaremos en la tabla de la F de Snedecor el valor F(2,12);0.05 = 3.8853. Al ser F = 0.73 menor que dicho punto crtico, se acepta Ho concluyendo con la no existencia de diferencias significativas entre los tres fertilizantes.
68
Note que hay 2 diferentes formas en las que se pueden capturar los datos en MINITAB: 1. Unstacked: (No apilados) Cada muestra est en su propia columna. (C1 a C5) 2. Stacked: (Apilados) Los datos de las muestras estn en una columna y los del factor en otra columna. (C6 - C7) Nota: El mtodo apilado es preferido porque se puede preservar el orden de observacin de los datos. Paso 10 - Graficar los datos. Opciones: Stat ANOVA One-Way.
69
dejar el nivel de
Clic en Graphs.
70
Boxplot of Tensin
25
20 Tensin
15
10
5 15 20 25 % de Algodn 30 35
Qu observaciones podemos hacer de los grficos de caja? 1.- La respuesta se incremente al 30%, y disminuye al 35%. 2.- 25% y 30% parecen ser significativamente mayores que el 15% y 35% 3.- 30% esta significativamente ms alto que 15%, 20%, 35%.
71
Paso 11 - Construir la tabla ANOVA. Paso 12 - Calcular la prueba estadstica (F) y su valor asociado de p.
R-Sq = 74.69%
R-Sq(adj) = 69.63%
Source = Fuentes de variacin. DF = Grados de libertad por fuente. SS = Suma de cuadrados (variacin) por fuente. MS = Estimado de la varianza de cada fuente SS/df. F = Radio de F MS(% de Algodn)/MS(Error) P = Valor de P
Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ------+---------+---------+---------+--15 5 9.800 3.347 (-----*----) 20 5 15.400 3.130 (----*----) 25 5 17.600 2.074 (----*----) 30 5 21.600 2.608 (----*----) 35 5 10.800 2.864 (-----*----) ------+---------+---------+---------+--10.0 15.0 20.0 25.0
Hiptesis alterna, Ha: Al menos una media no es igual. Prueba estadstica: Cuadrados de la media del % de algodn Cuadrados de la media del error
118.94
14.76
F = ----------------------------------- = ------ =
8.06
P-value = probabilidad de observar la prueba estadstica si Ho es verdadera = 0.000 Como p-value es < 0.05, rechazamos la hiptesis nula Ho y concluimos que una o ms medias es diferente.
Paso 14 - Revisar posibles violaciones a los supuestos. Cuando usamos ANOVA, hacemos los siguientes supuestos: Los residuales son: o Independientes o Distribuidos de forma Normal o Con varianza igual
MINITAB es muy robusto para realizar estas pruebas.
72
(4 en 1)
Clic OK
Versus Fits
Histogram
6.0 Frequency 4.5 3.0 1.5 0.0 -4 -2 0 2 Residual 4 5.0 Residual 2.5 0.0 -2.5 -5.0 2 4 6
Versus Order
8 10 12 14 16 18 20 22 24 Observation Order
73
Paso 15 - Si Ho fue rechazada, determinar cual(es) media(s) son diferentes. Stat ANOVA One-Way O ANOVA One-Way (Unstacked) Stat Selecciona Comparisons Clic Fishers individual error rate: Captura un valor de 5 (para alfa igual a 5%)
Fisher 95% Individual Confidence Intervals All Pairwise Comparisons among Levels of % de Algodn Simultaneous confidence level = 73.57% % de Algodn = 15 subtracted from: % de Algodn 20 25 30 35
74
Lower -14.545
Center -10.800
Upper -7.055
Paso 16 Verificar los resultados y trasladar la conclusin estadstica a una solucin prctica. Conclusin estadstica: Existe una diferencia significante entre las medias poblacionales. La media poblacional para el contenido de algodn de 30% es significativamente mayor que las medias poblacionales de los otros niveles de contenido de algodn. Solucin prctica: Usaremos el 30% de contendido de algodn para la fibra sinttica, lo cual proporcionar la mxima tensin, manteniendo al mismo tiempo las otras propiedades deseables.
Equipo integrado por: Ing. Gerardo Valdes Fuentes Ing. Rosa Isela Melndez Lpez Ing. Renato Elmer Vzquez Garca Lic. Jos Luis Chvez Dvila Maestra en Administracin y Liderazgo. Universidad Autnoma del Noreste.
7.- Bibliografa:
Estadstica para Administradores, Richard I. Levin & David S. Rubin. Editorial Prentice Hall www.wikipedia.com http://www.monografias.com/trabajos30/regresion-correlacion/regresioncorrelacion.shtml?monosearch http://www.uned.es/experto-metodos-avanzados/INGENIERIA1.pdf http://espanol.geocities.com/jefranco_2000mx/anova1.htm Minitab 15 (Versin de prueba obtenida de www.minitab.com). MeetMinitabEs.pdf (Obtenido de www.minitab.com)
75