Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ponentes: Dennis Hernndez Mara layali Luis Dorian Rubn Yutseni Zerpa
Introduccin
Conjunto de programas informticos
Paquetes estadsticos
Resolver problemas
Paquete Estadstico R
R es un sistema para anlisis estadsticos y grficos creado por Ross Ihaka y Robert Gentleman. R tiene una naturaleza doble de programa y lenguaje de programacin y es considerado como un dialecto del lenguaje S creado por los Laboratorios AT&T Bell
Caractersticas de R
R-project realiza anlisis estadsticos destinados a la investigacin biomdica. R es el nombre del lenguaje desarrollado para dar cauce a los estudios bioinformticos. Est basado en S, un lenguaje familiar para los profesionales de la investigacin. R-project puede asociarse a varias bases de datos y libreras que utilicen lenguajes como Perl, Python, C o Fortran. R hereda de S su orientacin a objetos. Otra de las caractersticas de R es su capacidad grfica, que permite generar grficos con alta calidad. R tambin puede usarse como herramienta de clculo numrico, campo en el que puede ser tan eficaz como otras herramientas especficas tales como , MATLAB.
Ventajas de R
Es gratuito
Mltiples aplicaciones
Desventaja de R
No guarda
Aplicaciones de R
Aplicaciones de R
En Bioconductor, un conjunto de paquetes para el anlisis de datos en genmica
Investigacin de operaciones (realiza miles de iteraciones por segundo) Las matemticas financieras
Caso de estudio (Activos del sector bancario, crdito interno en miles de millones de pesos)
Ao 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 Ene 20045 22196 23536 26076 27334 28201 31186 34576 39547 42634 53073 57626 57913 Feb 20245 22105 23869 26193 27893 28367 31341 34705 39831 43836 53761 60218 58176 Mar 20608 22218 24353 26243 28482 29164 31625 35635 40183 45195 54881 59469 58959 Abr 20677 21990 24377 26277 27505 29680 32288 36163 40531 45555 54922 58902 60604 May 20877 22428 24051 26468 27525 29084 32262 36342 40279 45865 55553 59333 60136 Jun 21193 22391 24375 26877 27195 29718 32524 36775 39899 46216 55985 59345 60234 Jul 21383 22429 24454 26464 27348 29597 32750 36705 40002 46605 56066 58868 58490 Ago 21531 22531 24584 26901 27777 29783 33190 37029 41068 48473 56635 59014 58827 Sep 21757 22585 24777 26892 27885 30274 33793 38105 41431 49124 57244 59304 59309 Oct 22306 22232 24974 26753 28753 30694 34107 38618 41656 50116 56796 60295 60640 Nov 22308 22771 25433 27873 28991 30897 34632 39608 42891 50772 57944 60984 61231 Dic 22417 23360 26249 28222 28817 31477 35044 39586 42922 52098 57936 61147 61552
1998
2000
mean(x) 46.23203 median(x) 41.1625 2002 2004 2006 sd(x) 13.37008 Time var(x) 178.7590
2008
2010
2012
La media de ganancias de activos para el periodo objeto de estudio es de 46.23203 millones de dlares. Esta media constituye el llamado nivel de la serie. Se nota que alrededor de los aos 1998 al 2005 las ganancias de activos para el banco se posicionan por encima del nivel y despus del ao 2005 crecen y decrecen de forma muy constante. Adems es muy notable que la serie alcance un nivel mximo en mayo del 2011 con 61.55 de ganancias y un valor mnimo a finales de enero 1998 con 20.045. La desviacin tpica de la serie summary(y) desciende a Median un valor Mean13.37008, de 3rd Qu. Min. 1st Qu. mientras que la varianza asciende a un Max. 20.05 26.27 32.64 37.37 49.37 valor de 178.7590 millones de dlares. 61.55
y 0 10 20 30
40
50
Estac.y
Estac.y
-1
-2
1998
2000
2002
2004
2006
2008
2010
2012
1998 2000 2002 2004 2006 2008 2010 2012
Time
Time
El grafico 2 muestra que la serie presenta estacionalidad regular ya que se observan fluctuaciones que se repiten ao tras ao con duraciones e intensidades similares. El grafico 3 de los residuos de la serie muestra que la varianza no es constante siendo necesario transformar la serie
-2
-1
Metodologa de Box Jenkins:. El mtodo univariable de Box Jenkins es ampliamente utilizado en la estadstica clsica para la prediccin con series de tiempo de una variable, basado en el proceso Autorregresivo Integrado de Promedio Mvil (ARIMA: Autoregressive Integrated Moving Average). Los Variantes de esta metodologa consideran los modelos de funcin de transferencia, usados para predecir valores de una serie de tiempo, a partir de valores pasados de esa serie y otras series con relacin causal. El Mtodo de Box y Jenkins requiere que la serie sea estacionaria, esto significa que su media, varianza y covarianza permanezcan constantes sin importar el momento en el cual se midan. Para convertir una serie el proceso de diferenciacin. no estacionaria en estacionaria se propone Esta metodologa aplica modelos autorregresivos, de promedio mvil y modelos mixtos. La unin de modelos estacionales con modelos no estacionales conduce a un modelo de gran capacidad de adaptacin que puede reflejar tanto la tendencia como la estacionalidad de una serie.
Estacionariedad
Grafico 4. Autocorrelacin simple de Box Jenkins
Series y1
1 .0
Series y1
1 .0
0 .5
P a r ti a l A C F 0 .0
ACF
- 0 .5
- 1 .0
0.0
0.5
1.0 Lag
1.5
2.0
2.5
-1 .0 0.0
-0 .5
0 .0
0 .5
0.5
1.0 Lag
1.5
2.0
2.5
Los Grficos 4 y 5 corresponden a los correlogramas simple y parcial de las ganancias de Activos de Sector BancarioCrdito Interno del Banco Central de Chile, se evidencia que la funcin de autocorrelacin muestral simple tiene valores que sobre salen los limites como lo son el (0.0, 1.0, 1.2); mientras que en la funcin de autocorrelacin parcial tambin se evidencia que abundantes valores que sobre salen hacia ambos extremos arriba y abajo los cuales son muy significativos con lo cual se puede concluir que la serie es no estacionaria es decir sus medias y sus varianzas no son constantes en el tiempo.
0 .8
ACF
0 .2
0 .0
- 0 .4
-0 .2
- 0 .6
- 0 .4
- 0 .2
P a r tia l A C F 0 .0 0 .2
0 .4
0 .6
0 .4
0.5
1.0 Lag
1.5
0.0
0.5 Lag
1.0
1.5
3 frequency
Por lo expuesto anteriormente se aplica el modelo ARIMA para los cuales se tomaron como muestras las siguientes combinaciones para encontrar el mejor modelo de ajuste entre ceros y unos teniendo en cuenta determinar el mejor valor se debe tomar en cuenta el valor absoluto del cociente entre los parmetros y la desviacin estndar sea mayor a dos.
Combinaciones posibles ARIMA para encontrar el mejor modelo m1=arima(y1,c(1,1,1),list(order=c(0,1,1),PERIOD=12)) m2=arima(y1,c(0,1,1),list(order=c(0,1,1),PERIOD=12)) m3=arima(y1,c(1,0,1),list(order=c(0,1,1),PERIOD=12)) m4=arima(y1,c(1,1,0),list(order=c(0,1,1),PERIOD=12)) Combinaciones posibles ARIMA para encontrar el mejor modelo m5=arima(y1,c(0,0,0),list(order=c(0,1,1),PERIOD=12)) m1=arima(y1,c(1,1,1),list(order=c(0,1,1),PERIOD=12)) m6=arima(y1,c(0,0,0),list(order=c(0,0,1),PERIOD=12)) m2=arima(y1,c(0,1,1),list(order=c(0,1,1),PERIOD=12)) m7=arima(y1,c(1,0,0),list(order=c(1,0,1),PERIOD=12)) m3=arima(y1,c(1,0,1),list(order=c(0,1,1),PERIOD=12)) m8=arima(y1,c(1,0,1),list(order=c(1,0,1),PERIOD=12)) m4=arima(y1,c(1,1,0),list(order=c(0,1,1),PERIOD=12)) m9=arima(y1,c(0,0,1),list(order=c(1,1,1),PERIOD=12)) m5=arima(y1,c(0,0,0),list(order=c(0,1,1),PERIOD=12)) m10=arima(y1,c(0,0,0),list(order=c(1,1,1),PERIOD=12)) m6=arima(y1,c(0,0,0),list(order=c(0,0,1),PERIOD=12)) m11=arima(y1,c(0,0,0),list(order=c(0,0,0),PERIOD=12)) m7=arima(y1,c(1,0,0),list(order=c(1,0,1),PERIOD=12)) m8=arima(y1,c(1,0,1),list(order=c(1,0,1),PERIOD=12)) m9=arima(y1,c(0,0,1),list(order=c(1,1,1),PERIOD=12)) m10=arima(y1,c(0,0,0),list(order=c(1,1,1),PERIOD=12)) m11=arima(y1,c(0,0,0),list(order=c(0,0,0),PERIOD=12))
ARIMA (1,0,1)(1,0,1)
ARIMA (0,0,0)(0,0,0)
2000
2002
2004 Time
2006
2008
2010
ACF of Residuals
1 .0 A F C -0 .2 0 .4
0.0
0.5 Lag
1.0
1.5
4 lag
10
Comprobacin y diagnstico
Aleatoriedad Para analizar si existe aleatoriedad entre los residuos del modelo se aplic el test de Runs puesto que hay p_value =0.324>0.05 no hay evidencias para rechazar la hiptesis nula de que los residuos son aleatorios.
Series: r1
1.0 0.6 0.8
0.0 0
0.2
0.4
3 frequency
Al observar la grafica del periodograma acumulado, se puede concluir que los residuos son ruido blanco es decir, no hay informacin relevante y por tanto ellos no aportan nada a la serie, entonces el modelo captura la esencia de la misma. Existen evidencias para afirmar que el modelo de ajuste es bastante bueno.
diff(diff(y1), 12)
-40
-20
20
40
2000
2002
2004 Time
2006
2008
2010
En la grafica de los residuos no se evidencia una violacin notoria del supuesto que la varianza es constante y no se observa un patrn de crecimiento o decrecimiento se deduce que el modelo ha capturado el decrecimiento y el crecimiento se mantiene constante en ciertos ciclos.
Series r1
1.0 Partial ACF -1.0 -0.5 0.0 0.5
0.2
0.4 Lag
0.6
0.8
El grafico 12 se observa que las funciones los residuos no tienen informacin relevante y no aportan nada a la serie y por tanto el modelo captura la esencia de la serie y que solo una sola espiga sobresale el resto se encuentran dentro de los lmites de confianza.
Densidad y1
Density
0.00
0.01
0.02
0.03
10
20
30
50
60
70
En el grafico 13 se puede concluir que el componente estocstico del modelo sigue aparentemente una distribucin normal. Adems el test de Shapiro Wilck aplicado anteriormente lo confirma.
Predicciones
La siguiente tabla muestra los valores de prediccin para el ao 2010. Los valores forman la Grafica 19 la cual muestra un pronstico bueno puesto que los valores reales de los datos de la series del ltimo ao estn entre el lmite superior y el limite central de los valores predichos Grfico 19. Predicciones para el ao 2010
Prediccin ao 2010 Enero del 2010 Febrero del 2010 Marzo del 2010 Abril del 2010 Mayo del 2010 Junio del 2010 Julio del 2010 Agosto del 2010 Septiembre del 2010 Octubre del 2010 Noviembre del 2010 Diciembre del 2010 Lmite inferior 25.35759 27.82514 28.89940 30.71842 34.40181 39.51050 42.48327 50.41963 57.80766 60.86691 63.56274 22.40329 Limite central 2.6302965 5.0978500 6.1721047 7.9911268 11.6745212 16.7832064 19.7559750 11.6745212 27.6923357 35.0803689 40.8354521 -0.3239973 Lmite superior 48.08488 50.55243 51.62669 53.44571 57.12911 62.23779 65.21056 65.21056 73.14692 80.53495 86.29004 45.13059
2010.2
2010.4 Tiempo
2010.6
2010.8