Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2018
LA MOLINA - LIMA - PERÚ
1. Resumen
2. Objetivos
2.1 Objetivos Específicos
Los metodos del analisis exploratorio de datos se basan en una variedad de métodos
gráficos para ayudar en la comprensión del mar de números frente al analista. Los
gráficos son un medio eficaz de comprimir y resumir los datos, representando mucho
en poco espacio y exponiendo características inusuales, las cuales suelen ser
especialmente importantes(Wilks, 2006)
El análisis exploratorio de datos tiene como objetivo identificar el modelo teórico más
adecuado para representar la población de datos de la cual proceden los datos
muestrales. Dicho análisis de basa en gráficos estadísticos que permiten explorar la
distribución identificando características tales como: valores atípicos o outliers,
concentraciones de valores, forma de la distribución, etc.( Calderon, 2011)
3.2. Climatología
El clima en San Martín es por lo general cálido y húmedo con inviernos sin lluvia; sin
embargo, debido a su irregular fisiografía el clima es bastante heterogéneo
dependiendo principalmente de la altura y la época del año para presenciar un tipo de
clima. Para el caso de las estaciones, estas pertenecen a dos distritos diferentes: San
Martin (Estacion Sauce) y Bellavista (Estaciones Dos de Mayo y San Pablo). El
primero presenta un clima semiseco y cálido; mientras que el segundo, un clima seco
y cálido. (Promamazonia s. f.)
El coeficiente de correlación mide la fortaleza relativa de una relación lineal entre dos
variables numéricas. Los valores del coeficiente de correlación varían entre -1 para
una correlación negativa perfecta, hasta +1 para una correlación positiva perfecta.
Cli= Q1-Paso
Cis= Q3+Paso
CEi= Q1-2*Paso
Ces= Q3+2*Paso
Con esto se observa que en el diagrama de caja pueden presentarse valores extremos y
valores adyacentes.
Valores extremos también conocidos como outlier que significan que sale del los
rango de Ces y Cis ; mientras que los valores adyacente se encuentran entre CIi – Cis
y CEi – Ces , esto quiere decir que sus valores son tomados en cuenta.
4. Metodología
4.1 Área de estudio
El área de estudio, corresponde a un grupo de 20 estaciones ubicadas a lo largo del
Perú, siendo estas más abundantes en la zona de selva.
4.2 Datos
Los datos con los cuales se realizó el estudio fueron extraídos de la página del
SENAMHI , en un principio se contó con 20 estaciones de las cuales se realizó una
serie de análisis, en la base de datos que se obtuvo se procedió a seleccionar las
variables meteorológicas que se utilizaron en el estudio son la temperatura máxima ,
mínima y precipitación acumulada.
Los índices ENSO, fueron obtenidos del servidor perteneciente al National Center for
Atmospheric Research (NCAR).
4.3 Metodología
Para alcanzar el primer objetivo, lo primero que se realizó fue ubicar geográficamente
las estaciones meteorológicas asignadas mediante el programa arcGis,
en base a la localización de las diferentes estaciones se procedió a elegir posibles
grupos de estudio por la cercanía de estas. Posteriormente se procedió a la lectura de
datos meteorológicos, para un mejor manejo de la data la lectura de estos se realizó
mediante el programa R. Una vez realizado el paso anterior, se procedió a filtrar las
estaciones, de forma que cuenten con datos en periodos de tiempo en común para que
de esta forma se pueda establecer un periodo de estudio.
Una vez seleccionado el periodo de estudio se filtraron las estaciones con la finalidad
de que dispusieran un porcentaje máximo de 15% de datos faltantes para el periodo
seleccionado.
Se procedió a evaluar el comportamiento de las variables mediante series temporales,
gráficos de barras y diagrama de cajas para así poder reconocer anomalías en la serie
de datos y de ser necesario descartar alguna estación que sea muy variable en
comparación a las demás estaciones del grupo de estudio. Finalmente se procede a la
verificación de la existencia de valores outliers haciendo uso del diagrama
de cajas.
Realizado este proceso ya se dispuso de datos para una zona geográfica específica,
con un comportamiento similar y sin valores atípicos que puedan afectar el análisis
del
segundo objetivo.
Para realizar el proceso anterior se usaron los programas: ArcGis 10.3, R versión 5.3,
Microsoft Excel 2013.
Tabla 1:Datos generales de las estaciones elegidas para el desarrollo del estudio.
5. Resultados
5.1 Resultados de disponibilidad temporal de datos
A partir de las figuras , , y llegamos a determinar que las estaciones 153225, 153307
y 305, contaban con series de datos de por lo menos 10 años, las cuales contaban con
data regularmente completa para el periodo 2004-2015.
Figura 2: gráfica heatmap de la cantidad de datos anuales de temperatura máxima para el periodo
1980-2014
Figura 3: gráfica heatmap de la cantidad de datos anuales de temperatura mínima para el periodo
1980-2014
Figura 4: gráfica heatmap de la cantidad de datos anuales de precipitación para el periodo 1980-2014
Figura 7: Diagrama de cajas para los datos de Temperatura Máxima mensual para los
datos de estaciones identificadas con código 153225,153307 y 385, para el periodo 2004-2014
Se pudo observar en la siguiente gráfica que la estación 385 tiene las temperaturas
mínimas más bajas, seguido de la estación 153225 y por último la estación 153307.
Esto se pudo notar por el patrón similar de las gráficas, sin embargo, este
comportamiento que parecía ser el común denominador mostró datos erráticos desde
el 2010 sobre todo para la estación 153225.
Figura11: grafica de barras de la precipitación mensual acumulada, para la estacion identificada con
código 153225, para el periodo 2004-2014.
Figura 12: grafica de barras de la precipitación mensual acumulada, para la estacion identificada con
código 153307, para el periodo 2004-2014.
Figura 13: grafica de barras de la precipitación mensual acumulada, para la estacione identificada con
código 385, para el periodo 2004-2014
En esta gráfica corrobora la anterior dado que la media se mantiene casi similar y no
presenta una variación en la caja.
Figura 15: Diagrama de cajas para los datos de precipitación mensual acumulada para los
datos de estaciones identificadas con código 153225,153307 y 385, para el periodo 2004-2014
Climatología
6. Discusiones
7. Conclusiones
● Se realizó exitosamente el análisis estadístico descriptivo de la data tratada por
medio de gráficas boxplot e histograma
● El clima de la región es la esperada por pertenecer a la selva: cálida y húmeda
aunque susceptible a la variación de la altura.
● Las repercusiones en las condiciones del tiempo que trae el evento del El Niño
son de carácter global, sin embargo los valores numéricos de los coeficientes de
correlación de Pearson y Spearman resultantes, demuestran que dichas
repercusiones no tienen un impacto homogéneo sobre la región de San Martín.
8. Bibliografía
● Berenson, M; Krehbiel, T. 2006. Estadistic (en línea). s.l., s.e. p. 105.
Disponible en
https://books.google.com.pe/books?id=Aw2NKbDJoZoC&pg=PA105&dq=coeficientes+de+c
orrelacion&hl=es&sa=X&ved=0ahUKEwic8ovn5fDdAhXL1lkKHXG9DtUQ6AEIJjAA#v=o
nepage&q=coeficientes de correlación &f=false.
● Calderón, J. 2011. Estadística para la tesis de postgrado. Carolina del Norte,
s.e. p. 55-56.
● Department of E and ASCU. 2006. Statistical methods in the atmospheric sciences. s.l., s.e.
● McPhaden, M. 2002. El Nino and La Niña: Causes and Global Consequences (en línea). s.l., s.e.
p. 12. Disponible en https://www.pmel.noaa.gov/gtmba/files/PDF/pubs/ElNinoLaNina.pdf.
● Organización Meteorológica Mundial. 2015. Nuevo enfoque de dos niveles para las “normales
climatológicas” (en línea, sitio web). Disponible en
https://public.wmo.int/es/media/news/nuevo-enfoque-de-dos-niveles-para-las-“normales-climato
lógicas”%0A%0A.
● Rodriguez Hernandez, D. 2015. ANÁLISIS DEL GRADIENTE TÉRMICO EN LAS
VERTIENTES ESTE Y OESTE DE LA ISLA DE LA PALMA (en línea). s.l., Universidad de la
Laguna. 9 p. Disponible en https://riull.ull.es/xmlui/bitstream/handle/915/1229/Analisis del
gradiente termico en las vertientes Este y Oeste de la isla de La Palma.pdf?sequence=1
● Promamazonia. DIAGNOSTICO Y MARCO ESTRATÉGICO DE LA BIODIVERSIDAD
PARA LA PROMOCIÓN DEL ECOTURISMO Y ZONAS POTENCIALES EN LA REGIÓN
SAN MARTIN.
● Pedroza, H; Dicovskyi, L. 2006. Sistemas de Análisis Estadísticos con SPSS. s.l., s.e. p. 50.
● Sheraz Mahdi, S. 2018. Climate Change and Agriculture in India: Impact an Adaptation. s.l., s.e.
p. 12.
9. Anexos
Anexo 1: Serie de tiempo de la variación mensual de la temperatura mínima, para las estaciones
identificadas con código 153225,153307,385 y 278, para el periodo 2004-2014.
(Fuente: Elaboración propia)
Anexo 2: Serie de tiempo de la variación mensual de la precipitación acumulada, para las estaciones
identificadas con código 153225,153307,385 y 278, para el periodo 2004-2014.
(Fuente:Elaboración propia)
Anexo 3:Serie de tiempo de la variación mensual de la temperatura máxima, para las estaciones
identificadas con código 153225,153307,385 y 278, para el periodo 2004-2014.
(Fuente:Elaboración propia)
Anexo 4:Gráfica del índice de el niño oceánico(ONI) vs la Temperatura promedio Mínima en Centígrados de la
Estación 153307 desde el año 2004 hasta el año 2014.
(Fuente:Elaboración Propia)