Lenguaje R

Lenguaje de simulacin R (Paquete Estadstico)
Ponentes: Dennis Hernndez Mara layali Luis Dorian Rubn Yutseni Zerpa
Introduccin
Conjunto de programas informticos
Son parecido a un paquete ofimtico
Paquetes estadsticos
Diseados para el anlisis
Resolver problemas
Paquete Estadstico R
Programa informtico que resuelve
R es un sistema para anlisis estadsticos y grficos creado por Ross Ihaka y Robert Gentleman. R tiene una naturaleza doble de programa y lenguaje de programacin y es considerado como un dialecto del lenguaje S creado por los Laboratorios AT&T Bell
Potente, flexible y profesional
Caractersticas de R
R-project realiza anlisis estadsticos destinados a la investigacin biomdica. R es el nombre del lenguaje desarrollado para dar cauce a los estudios bioinformticos. Est basado en S, un lenguaje familiar para los profesionales de la investigacin. R-project puede asociarse a varias bases de datos y libreras que utilicen lenguajes como Perl, Python, C o Fortran. R hereda de S su orientacin a objetos. Otra de las caractersticas de R es su capacidad grfica, que permite generar grficos con alta calidad. R tambin puede usarse como herramienta de clculo numrico, campo en el que puede ser tan eficaz como otras herramientas especficas tales como , MATLAB.
Ventajas de R
Es gratuito
obtencin de resultados en tiempos muy cortos
descarga e instalacin sencilla
No se necesita tener conocimientos de programacin
Facilidad de uso y manejo
Mltiples aplicaciones
Maneja datos de gran extensin
Desventaja de R
No guarda
Resultados multivariantes (el usuario debe escoger el mas apropiado)
Para interpretacin de los datos se debe tener conocimientos estadsticos
Aplicaciones de R
Desarrollo de series de tiempo

Investigacin de operaciones ( realiza miles de iteraciones por segundo)
Las matemticas financieras
En la bioinformtica En la investigacin biomdica
Aplicaciones de R
En Bioconductor, un conjunto de paquetes para el anlisis de datos en genmica
Investigacin de operaciones (realiza miles de iteraciones por segundo) Las matemticas financieras
Rmetrics orientado al anlisis de los mercados financieros y la valoracin de instrumentos de inversin
Demostracin del lenguaje (Series de Tiempo)

Primero que nada como bien sabemos la estadstica estudia la recoleccin, anlisis e interpretacin de datos, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algn fenmeno o estudio. Como tambin debemos saber Se requiere de un estudio estadstico cuando el fenmeno que se evala se presenta con regularidad de modo que el uso de frecuencias o repeticiones de la aparicin de las caractersticas sea esencial para el diagnstico de esa realidad local o global. El proceso que estudia el anlisis e interpretacin de los datos se le llama serie temporal o cronolgica la cual es una secuencia de datos, observaciones o valores, medidos en determinados momentos del tiempo, ordenados cronolgicamente y, normalmente, espaciados entre s de manera uniforme. El anlisis de series temporales comprende mtodos que ayudan a interpretar este tipo de datos, extrayendo informacin representativa, referente a los orgenes o relaciones subyacentes como a la posibilidad de extrapolar y predecir su comportamiento futuro
Caso de estudio (Activos del sector bancario, crdito interno en miles de millones de pesos)
Ao 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 Ene 20045 22196 23536 26076 27334 28201 31186 34576 39547 42634 53073 57626 57913 Feb 20245 22105 23869 26193 27893 28367 31341 34705 39831 43836 53761 60218 58176 Mar 20608 22218 24353 26243 28482 29164 31625 35635 40183 45195 54881 59469 58959 Abr 20677 21990 24377 26277 27505 29680 32288 36163 40531 45555 54922 58902 60604 May 20877 22428 24051 26468 27525 29084 32262 36342 40279 45865 55553 59333 60136 Jun 21193 22391 24375 26877 27195 29718 32524 36775 39899 46216 55985 59345 60234 Jul 21383 22429 24454 26464 27348 29597 32750 36705 40002 46605 56066 58868 58490 Ago 21531 22531 24584 26901 27777 29783 33190 37029 41068 48473 56635 59014 58827 Sep 21757 22585 24777 26892 27885 30274 33793 38105 41431 49124 57244 59304 59309 Oct 22306 22232 24974 26753 28753 30694 34107 38618 41656 50116 56796 60295 60640 Nov 22308 22771 25433 27873 28991 30897 34632 39608 42891 50772 57944 60984 61231 Dic 22417 23360 26249 28222 28817 31477 35044 39586 42922 52098 57936 61147 61552
(Fuente Banco Central de Chile)
Estudio inicial de la serie

60
1998
2000
mean(x) 46.23203 median(x) 41.1625 2002 2004 2006 sd(x) 13.37008 Time var(x) 178.7590
2008
2010
2012
La media de ganancias de activos para el periodo objeto de estudio es de 46.23203 millones de dlares. Esta media constituye el llamado nivel de la serie. Se nota que alrededor de los aos 1998 al 2005 las ganancias de activos para el banco se posicionan por encima del nivel y despus del ao 2005 crecen y decrecen de forma muy constante. Adems es muy notable que la serie alcance un nivel mximo en mayo del 2011 con 61.55 de ganancias y un valor mnimo a finales de enero 1998 con 20.045. La desviacin tpica de la serie summary(y) desciende a Median un valor Mean13.37008, de 3rd Qu. Min. 1st Qu. mientras que la varianza asciende a un Max. 20.05 26.27 32.64 37.37 49.37 valor de 178.7590 millones de dlares. 61.55
y 0 10 20 30
40
50
Estadstica Descriptiva de las ganancias de Activos de sector bancariocrdito interno

mean(x) 46.23203 median(x) 41.1625 sd(x) 13.37008 var(x) 178.7590 summary(y) Min. 1st Qu. Median Mean 3rd Qu. Max. 20.05 26.27 32.64 37.37 49.37 61.55
Grafica 2. Estacionalidad de los datos

2
Grafica 3. Residuos de los datos
Estac.y
Estac.y
-1
-2
1998
2000
2002
2004
2006
2008
2010
2012
1998 2000 2002 2004 2006 2008 2010 2012
Time
Time
El grafico 2 muestra que la serie presenta estacionalidad regular ya que se observan fluctuaciones que se repiten ao tras ao con duraciones e intensidades similares. El grafico 3 de los residuos de la serie muestra que la varianza no es constante siendo necesario transformar la serie
-2
-1
Anlisis de la serie de tiempo mediante la metodologa de Box Jenkins
Metodologa de Box Jenkins:. El mtodo univariable de Box Jenkins es ampliamente utilizado en la estadstica clsica para la prediccin con series de tiempo de una variable, basado en el proceso Autorregresivo Integrado de Promedio Mvil (ARIMA: Autoregressive Integrated Moving Average). Los Variantes de esta metodologa consideran los modelos de funcin de transferencia, usados para predecir valores de una serie de tiempo, a partir de valores pasados de esa serie y otras series con relacin causal. El Mtodo de Box y Jenkins requiere que la serie sea estacionaria, esto significa que su media, varianza y covarianza permanezcan constantes sin importar el momento en el cual se midan. Para convertir una serie el proceso de diferenciacin. no estacionaria en estacionaria se propone Esta metodologa aplica modelos autorregresivos, de promedio mvil y modelos mixtos. La unin de modelos estacionales con modelos no estacionales conduce a un modelo de gran capacidad de adaptacin que puede reflejar tanto la tendencia como la estacionalidad de una serie.
Estacionariedad
Grafico 4. Autocorrelacin simple de Box Jenkins
Series y1
1 .0
Grafico 5. Autocorrelacin parcial de Box Jenkins
Series y1
1 .0
0 .5
P a r ti a l A C F 0 .0
ACF
- 0 .5
- 1 .0
0.0
0.5
1.0 Lag
1.5
2.0
2.5
-1 .0 0.0
-0 .5
0 .0
0 .5
0.5
1.0 Lag
1.5
2.0
2.5
Los Grficos 4 y 5 corresponden a los correlogramas simple y parcial de las ganancias de Activos de Sector BancarioCrdito Interno del Banco Central de Chile, se evidencia que la funcin de autocorrelacin muestral simple tiene valores que sobre salen los limites como lo son el (0.0, 1.0, 1.2); mientras que en la funcin de autocorrelacin parcial tambin se evidencia que abundantes valores que sobre salen hacia ambos extremos arriba y abajo los cuales son muy significativos con lo cual se puede concluir que la serie es no estacionaria es decir sus medias y sus varianzas no son constantes en el tiempo.
Estimacin de los parmetros

Grafico 6. Autocorrelacion simple con doble diferenciacin
Series diff(diff(y1), 12)
1 .0
0 .6
Grafico 7. Autocorrelacion parcial con doble diferenciacin

Series diff(diff(y1), 12)
0 .8
ACF
0 .2
0 .0
- 0 .4
-0 .2
- 0 .6
- 0 .4
- 0 .2
P a r tia l A C F 0 .0 0 .2
0 .4
0 .6
0 .4
0.5
1.0 Lag
1.5
0.0
0.5 Lag
1.0
1.5
Grafico 8 Periodograma del modelo seleccionado

Series: diff(diff(y1))
10 . 00 . 0 0 .2 0 .4 06 . 08 .
3 frequency
Por lo expuesto anteriormente se aplica el modelo ARIMA para los cuales se tomaron como muestras las siguientes combinaciones para encontrar el mejor modelo de ajuste entre ceros y unos teniendo en cuenta determinar el mejor valor se debe tomar en cuenta el valor absoluto del cociente entre los parmetros y la desviacin estndar sea mayor a dos.
Combinaciones posibles ARIMA para encontrar el mejor modelo m1=arima(y1,c(1,1,1),list(order=c(0,1,1),PERIOD=12)) m2=arima(y1,c(0,1,1),list(order=c(0,1,1),PERIOD=12)) m3=arima(y1,c(1,0,1),list(order=c(0,1,1),PERIOD=12)) m4=arima(y1,c(1,1,0),list(order=c(0,1,1),PERIOD=12)) Combinaciones posibles ARIMA para encontrar el mejor modelo m5=arima(y1,c(0,0,0),list(order=c(0,1,1),PERIOD=12)) m1=arima(y1,c(1,1,1),list(order=c(0,1,1),PERIOD=12)) m6=arima(y1,c(0,0,0),list(order=c(0,0,1),PERIOD=12)) m2=arima(y1,c(0,1,1),list(order=c(0,1,1),PERIOD=12)) m7=arima(y1,c(1,0,0),list(order=c(1,0,1),PERIOD=12)) m3=arima(y1,c(1,0,1),list(order=c(0,1,1),PERIOD=12)) m8=arima(y1,c(1,0,1),list(order=c(1,0,1),PERIOD=12)) m4=arima(y1,c(1,1,0),list(order=c(0,1,1),PERIOD=12)) m9=arima(y1,c(0,0,1),list(order=c(1,1,1),PERIOD=12)) m5=arima(y1,c(0,0,0),list(order=c(0,1,1),PERIOD=12)) m10=arima(y1,c(0,0,0),list(order=c(1,1,1),PERIOD=12)) m6=arima(y1,c(0,0,0),list(order=c(0,0,1),PERIOD=12)) m11=arima(y1,c(0,0,0),list(order=c(0,0,0),PERIOD=12)) m7=arima(y1,c(1,0,0),list(order=c(1,0,1),PERIOD=12)) m8=arima(y1,c(1,0,1),list(order=c(1,0,1),PERIOD=12)) m9=arima(y1,c(0,0,1),list(order=c(1,1,1),PERIOD=12)) m10=arima(y1,c(0,0,0),list(order=c(1,1,1),PERIOD=12)) m11=arima(y1,c(0,0,0),list(order=c(0,0,0),PERIOD=12))
Estudiando las distintas combinaciones anteriormente clasificaron las siguientes combinaciones

ARIMA(1,0,1)(0,1,1)
ARIMA (1,0,0)(1,0,1)
ARIMA (1,0,1)(1,0,1)
ARIMA (0,0,0)(0,0,0)
Grafico 9. diagnostico del modelo ARIMA(ARIMA(1,0,1)(0,1,1))

Standardized Residuals
1 -3 1998 -1
2000
2002
2004 Time
2006
2008
2010
ACF of Residuals
1 .0 A F C -0 .2 0 .4
0.0
0.5 Lag
1.0
1.5
p values for Ljung-Box statistic

0 0 0 .0 .4 .8 pva e lu
4 lag
10
Comprobacin y diagnstico
Aleatoriedad Para analizar si existe aleatoriedad entre los residuos del modelo se aplic el test de Runs puesto que hay p_value =0.324>0.05 no hay evidencias para rechazar la hiptesis nula de que los residuos son aleatorios.
Series: r1
1.0 0.6 0.8
Grafico 10 del Periodograma
0.0 0
0.2
0.4
3 frequency
Al observar la grafica del periodograma acumulado, se puede concluir que los residuos son ruido blanco es decir, no hay informacin relevante y por tanto ellos no aportan nada a la serie, entonces el modelo captura la esencia de la misma. Existen evidencias para afirmar que el modelo de ajuste es bastante bueno.
Grafico 11. Residuos de la serie ARIMA
diff(diff(y1), 12)
-40
-20
20
40
2000
2002
2004 Time
2006
2008
2010
En la grafica de los residuos no se evidencia una violacin notoria del supuesto que la varianza es constante y no se observa un patrn de crecimiento o decrecimiento se deduce que el modelo ha capturado el decrecimiento y el crecimiento se mantiene constante en ciertos ciclos.
Grafico 12 Autocorrelacin del modelo ARIMA
Series r1
1.0 Partial ACF -1.0 -0.5 0.0 0.5
0.2
0.4 Lag
0.6
0.8
El grafico 12 se observa que las funciones los residuos no tienen informacin relevante y no aportan nada a la serie y por tanto el modelo captura la esencia de la serie y que solo una sola espiga sobresale el resto se encuentran dentro de los lmites de confianza.
Grafico 13. de los Residuos
Densidad y1
Density
0.00
0.01
0.02
0.03
10
20
30
40 N = 144 Bandwidth = 4.516
50
60
70
En el grafico 13 se puede concluir que el componente estocstico del modelo sigue aparentemente una distribucin normal. Adems el test de Shapiro Wilck aplicado anteriormente lo confirma.
Predicciones
La siguiente tabla muestra los valores de prediccin para el ao 2010. Los valores forman la Grafica 19 la cual muestra un pronstico bueno puesto que los valores reales de los datos de la series del ltimo ao estn entre el lmite superior y el limite central de los valores predichos Grfico 19. Predicciones para el ao 2010
Prediccin ao 2010 Enero del 2010 Febrero del 2010 Marzo del 2010 Abril del 2010 Mayo del 2010 Junio del 2010 Julio del 2010 Agosto del 2010 Septiembre del 2010 Octubre del 2010 Noviembre del 2010 Diciembre del 2010 Lmite inferior 25.35759 27.82514 28.89940 30.71842 34.40181 39.51050 42.48327 50.41963 57.80766 60.86691 63.56274 22.40329 Limite central 2.6302965 5.0978500 6.1721047 7.9911268 11.6745212 16.7832064 19.7559750 11.6745212 27.6923357 35.0803689 40.8354521 -0.3239973 Lmite superior 48.08488 50.55243 51.62669 53.44571 57.12911 62.23779 65.21056 65.21056 73.14692 80.53495 86.29004 45.13059
Grafico 14. de las predicciones

Predicciones Maquinarias y Aparatos Electricos 60 0 2010.0 20 40 80
2010.2
2010.4 Tiempo
2010.6
2010.8

Lenguaje R

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Lenguaje R

Cargado por

Copyright:

Formatos disponibles

Lenguaje de simulacin R (Paquete Estadstico)

Son parecido a un paquete ofimtico

Diseados para el anlisis

Programa informtico que resuelve

Potente, flexible y profesional

obtencin de resultados en tiempos muy cortos

descarga e instalacin sencilla

No se necesita tener conocimientos de programacin

Facilidad de uso y manejo

Maneja datos de gran extensin

Resultados multivariantes (el usuario debe escoger el mas apropiado)

Para interpretacin de los datos se debe tener conocimientos estadsticos

Desarrollo de series de tiempo

Las matemticas financieras

En la bioinformtica En la investigacin biomdica

Rmetrics orientado al anlisis de los mercados financieros y la valoracin de instrumentos de inversin

Demostracin del lenguaje (Series de Tiempo)

(Fuente Banco Central de Chile)

Estudio inicial de la serie

Estadstica Descriptiva de las ganancias de Activos de sector bancariocrdito interno

Grafica 2. Estacionalidad de los datos

Grafica 3. Residuos de los datos

Anlisis de la serie de tiempo mediante la metodologa de Box Jenkins

Grafico 5. Autocorrelacin parcial de Box Jenkins

Estimacin de los parmetros

Grafico 7. Autocorrelacion parcial con doble diferenciacin

Grafico 8 Periodograma del modelo seleccionado

Estudiando las distintas combinaciones anteriormente clasificaron las siguientes combinaciones

Grafico 9. diagnostico del modelo ARIMA(ARIMA(1,0,1)(0,1,1))

p values for Ljung-Box statistic

Grafico 10 del Periodograma

Grafico 11. Residuos de la serie ARIMA

Grafico 12 Autocorrelacin del modelo ARIMA

Grafico 13. de los Residuos

40 N = 144 Bandwidth = 4.516

Grafico 14. de las predicciones

También podría gustarte