Está en la página 1de 21

Departamento Física y Meteorología

Tema:Análisis Exploratorio de datos en el Departamento de San Martín en la


zona ceja de selva .
Curso: Estadística

2018
LA MOLINA - LIMA - PERÚ
1. Resumen

Para el presente trabajo, se buscó realizar el AED de un grupo de estaciones, método


necesario para realizar el análisis climático, adicionalmente se correlacionó la
climatología del lugar con el índice ENSO.
Lo primero que se hizo fue filtrar un grupo de estaciones, posteriormente se realizó el
análisis de los datos mediante el uso de técnicas gráficas con la intención de mejorar
nuestro entendimiento de temperatura máxima, mínima y precipitación para 3
estaciones de la Selva de San Martín, exactamente en los distritos de Bellavista y San
Martín. Dichas estaciones fueron elegidas de un total de 20 estaciones iniciales,
mediante criterios como: cercanía y disponibilidad de datos.
Posteriormente se realizó un análisis de la climatología de dicha zona geográfica,
además se relaciona datos de los índices ENSO para el periodo trabajado, para buscar
ciertos patrones que correlacionen nuestras variables de estudio a dichos índices y su
nivel de influencia sobre estos.
Finalmente se logró realizar el análisis climático de la zona que abarcan las 3
estaciones elegidas, haciendo la correlación lineal con el índice ENSO.

2. Objetivos
2.1 Objetivos Específicos

● Realizar AED a una serie de datos de 20 estaciones a lo largo del territorio


peruano y extraer un grupo de estudio.
● Analizar el comportamiento climático de la zona de ceja de selva en el
departamento de San Martín en el período 2004-2014
● Relacionar el análisis de correlación lineal entre las estaciones y el ENSO.

2.2 Objetivo General

● Realizar un análisis climático de la zona de selva, analizando la influencia del


ENSO sobre este, apoyándose de técnicas de análisis de datos.
3. Marco teórico
3.1 Análisis Exploratorio de Datos

Los metodos del analisis exploratorio de datos se basan en una variedad de métodos
gráficos para ayudar en la comprensión del mar de números frente al analista. Los
gráficos son un medio eficaz de comprimir y resumir los datos, representando mucho
en poco espacio y exponiendo características inusuales, las cuales suelen ser
especialmente importantes(Wilks, 2006)
El análisis exploratorio de datos tiene como objetivo identificar el modelo teórico más
adecuado para representar la población de datos de la cual proceden los datos
muestrales. Dicho análisis de basa en gráficos estadísticos que permiten explorar la
distribución identificando características tales como: valores atípicos o outliers,
concentraciones de valores, forma de la distribución, etc.( Calderon, 2011)

3.2. Climatología

La climatología es la ciencia que busca describir y explicar la naturaleza del clima, su


variabilidad de un lugar a otro y su forma en cómo se relaciona con las distintas
actividades humanas.(García J. 1994)
Según la organización meteorológica mundial (OMM) el clima varía naturalmente de
un año para otro, la climatología es una medida estándar de 30 años de las
temperaturas , las precipitaciones y otras variables meteorológicas. Esas medidas de
30 años se les conoce como normas climatológicas y pueden tener diferente rango de
cálculo como en una escala local, nacional o a nivel global.
El periodo de la última norma climatológica es de 1961-1990, sin embargo, con el
incremento de las concentraciones de los gases del efecto invernadero está cambiando
el clima global mucho más rápido que antes, el congreso meteorológico mundial,
aprobó una resolución según la cual la organización actualizará las normas
climatológicas reglamentarias con fines operativos cada diez años y utilizara el lapso
1981-2010. Pero sin eliminar el periodo histórico de referencia con el fin de apoyar
las evaluaciones del cambio climático a largo plazo.
“En un mundo en el que el clima está cambiando rápidamente, necesitamos actualizar
las normales climatológicas con más frecuencia que en el pasado para que sigan
siendo útiles”, según Thomas C. Peterson, presidente de la Comisión de Climatología
de la OMM y científico principal de los Centros Nacionales de Información
Medioambiental de la Administración Nacional del Océano y de la Atmósfera
(NOAA).
“Pero, al mismo tiempo, necesitamos mantener la referencia histórica con objeto de
que el público y los científicos entiendan a qué ritmo está evolucionando el cambio
climático”. (Organización Meteorológica Mundial 2015)

3.3 Descripción climática del área de estudio

El clima en San Martín es por lo general cálido y húmedo con inviernos sin lluvia; sin
embargo, debido a su irregular fisiografía el clima es bastante heterogéneo
dependiendo principalmente de la altura y la época del año para presenciar un tipo de
clima. Para el caso de las estaciones, estas pertenecen a dos distritos diferentes: San
Martin (Estacion Sauce) y Bellavista (Estaciones Dos de Mayo y San Pablo). El
primero presenta un clima semiseco y cálido; mientras que el segundo, un clima seco
y cálido. (Promamazonia s. f.)

3.4 Coeficientes de Correlación

El coeficiente de correlación mide la fortaleza relativa de una relación lineal entre dos
variables numéricas. Los valores del coeficiente de correlación varían entre -1 para
una correlación negativa perfecta, hasta +1 para una correlación positiva perfecta.

3.4.1 Coeficiente de Correlación de Pearson

El coeficiente de correlación lineal de Pearson, mide el grado de asociación lineal


entre dos variables medidas en escala de intervalo o de razón. Valores cercanos a +1
indican una fuerte asociación lineal positiva, en cambio valores próximos a -1 una
fuerte asociación lineal negativa; y valores próximos a cero indicará que no existe
asociación.

3.4.2 Coeficiente de Correlación de Spearman

El coeficiente de correlación lineal de Spearman, es una variante del coeficiente de


correlación de Pearson, esta variante consiste en que, en lugar de medir el grado de
asociación lineal a partir de los valores propios de las variables, se mide a partir de la
asignación de rango de valores ordenados. En ese sentido el coeficiente de correlación
de Spearman, es una medida también adecuada en el caso de variables de tipo ordinal.
Por lo demás, sus valores se interpretan exactamente igual al coeficiente de
correlación de Spearman.(Pedroza y Dicovskiy 2006)

3.5 El Niño-Oscilación del Sur (ENOS)


El fenómeno conocido como El Niño-Oscilación Sur (ENOS) constituye el ejemplo
más dramático del rol esencial de la interacción entre el océano y la atmósfera. El
ciclo ENOS es un proceso oceánico-atmosférico acoplado causado por las
redistribuciones recurrentes del calor y momento atmosférico en el Pacífico
Ecuatorial(McPhaden, 2002).
ENOS exhibe un ciclo regular de dos a siete años, abarca un área de gran
extensión(Todo el Pacífico Tropical) y sus impactos son de alcance global(Spade,
2003).

3.5.1 Índice de El Niño Oceánico

La National Oceanic and Atmospheric Administration(NOAA) es una agencia


científica americana que descubrió el índice conocido como Oceanic Niño
Index(ONI) esto sirve para la identificación de eventos de El Niño y la Niña. El
índice se calcula a partir de una anomalía de la temperatura del mar de 3 meses para el
niño 3.4 ( 5°N , 5°S, 120-170 ° W) (Ver Anexo 5)(Sheraz Mahdi 2018)

3.6 Cálculo de valores atípicos

Para definir un diagrama de cajas se realizó previamente la definición de las variables:


Rango Intercuartil: RI= Q3-Q1
Cálculo del paso: Paso = 1.5*RI
Cálculo de las cercanas internas y externas:

Cli= Q1-Paso
Cis= Q3+Paso
CEi= Q1-2*Paso
Ces= Q3+2*Paso
Con esto se observa que en el diagrama de caja pueden presentarse valores extremos y
valores adyacentes.
Valores extremos también conocidos como outlier que significan que sale del los
rango de Ces y Cis ; mientras que los valores adyacente se encuentran entre CIi – Cis
y CEi – Ces , esto quiere decir que sus valores son tomados en cuenta.
4. Metodología
4.1 Área de estudio
El área de estudio, corresponde a un grupo de 20 estaciones ubicadas a lo largo del
Perú, siendo estas más abundantes en la zona de selva.

Figura 1: Mapa de ubicación geográfica de estaciones asignadas


(Fuente propia)

4.2 Datos

Los datos con los cuales se realizó el estudio fueron extraídos de la página del
SENAMHI , en un principio se contó con 20 estaciones de las cuales se realizó una
serie de análisis, en la base de datos que se obtuvo se procedió a seleccionar las
variables meteorológicas que se utilizaron en el estudio son la temperatura máxima ,
mínima y precipitación acumulada.
Los índices ENSO, fueron obtenidos del servidor perteneciente al National Center for
Atmospheric Research (NCAR).

4.3 Metodología
Para alcanzar el primer objetivo, lo primero que se realizó fue ubicar geográficamente
las estaciones meteorológicas asignadas mediante el programa arcGis,
en base a la localización de las diferentes estaciones se procedió a elegir posibles
grupos de estudio por la cercanía de estas. Posteriormente se procedió a la lectura de
datos meteorológicos, para un mejor manejo de la data la lectura de estos se realizó
mediante el programa R. Una vez realizado el paso anterior, se procedió a filtrar las
estaciones, de forma que cuenten con datos en periodos de tiempo en común para que
de esta forma se pueda establecer un periodo de estudio.
Una vez seleccionado el periodo de estudio se filtraron las estaciones con la finalidad
de que dispusieran un porcentaje máximo de 15% de datos faltantes para el periodo
seleccionado.
Se procedió a evaluar el comportamiento de las variables mediante series temporales,
gráficos de barras y diagrama de cajas para así poder reconocer anomalías en la serie
de datos y de ser necesario descartar alguna estación que sea muy variable en
comparación a las demás estaciones del grupo de estudio. Finalmente se procede a la
verificación de la existencia de valores outliers haciendo uso del diagrama
de cajas.
Realizado este proceso ya se dispuso de datos para una zona geográfica específica,
con un comportamiento similar y sin valores atípicos que puedan afectar el análisis
del
segundo objetivo.
Para realizar el proceso anterior se usaron los programas: ArcGis 10.3, R versión 5.3,
Microsoft Excel 2013.

Tabla 1:Datos generales de las estaciones elegidas para el desarrollo del estudio.

Para el segundo objetivo, se comparó diversos estudios que describen de manera


general el clima presentado en
el departamento de San Martín, específicamente en las provincias de San Martín y
Bellavista. De igual manera se consultó bibliografía que pudiera explicar algún
comportamiento anómalo de la data obtenida con la intención de poder hacer una
descripción en condiciones normales del clima.

Para el tercer objetivo Se utilizó el programa R para correlacionar las variables de


Temperatura Máxima, Temperatura Mínima y Precipitación de las estaciones del
departamento de San Martín con el Índice de El Niño. Se interpretó el coeficiente de
correlación lineal de Pearson y Spearman de las estaciones que fueron elegidas, según
el valor numérico arrojado por el programa R. Esto se hizo con la finalidad de
identificar en qué medida influyó el ENOS en la climatología del área de estudio.

5. Resultados
5.1 Resultados de disponibilidad temporal de datos

A partir de las figuras , , y llegamos a determinar que las estaciones 153225, 153307
y 305, contaban con series de datos de por lo menos 10 años, las cuales contaban con
data regularmente completa para el periodo 2004-2015.

Figura 2: gráfica heatmap de la cantidad de datos anuales de temperatura máxima para el periodo
1980-2014
Figura 3: gráfica heatmap de la cantidad de datos anuales de temperatura mínima para el periodo
1980-2014

Figura 4: gráfica heatmap de la cantidad de datos anuales de precipitación para el periodo 1980-2014

5.2 Resultados de Temperatura Máxima

En la figura 2 se pudo observar que 2 estaciones (estación 153225 y 153307)


presentan un comportamiento similar en su distribución temporal, también se apreció
un patrón casi idéntico debido a que las gráficas prácticamente coinciden en buena
parte de tiempo. Así mismo se pudo observar similares patrones de máximos y
mínimos en las 3 gráficas analizadas. Por otra parte los datos de la estación 385,
presentaron un considerable descenso de entre 4-5 ºC de temperatura, respecto de las
otras estaciones a lo largo del periodo de estudio.
A lo largo del periodo de estudio, las temperaturas máximas presentaron un
comportamiento estacional, lo que se evidencia en el comportamiento de la figura 2.
Picos máximos en la época de verano y los mínimos en invierno notando claramente 5
descensos y ascensos en cada intervalo de 5 años.
Pudimos observar un extraño aumento en el año 2010, el cual se mantuvo los dos años
siguientes para luego volver a normalizar el comportamiento a partir del año 2012.

Figura 5: Serie de tiempo de la variación mensual de la temperatura máxima, para las


estaciones identificadas, para el periodo 2004-2014

Concordantemente con la primera gráfica, podemos observar gran similitud en la


distribución de las estaciones 153225 y 153307.Podemos observar que las
temperaturas máximas más frecuentes de estas últimas estaciones se encuentran en el
intervalo de 32,3-33,3 ºC.
Asimismo podemos observar que las 3 estaciones presentan una distribución casi
normal. A partir de la comparación de la gráfica de frecuencias entre las estaciones
153225 y 153307, podemos asumir una mayor varianza de los datos para la segunda
estación.Asimismo podemos afirmar que la moda de ambas estaciones es la misma.
Por otra parte la estación 385 mantiene ese desfase de 4-5ºC respecto a las dos
estaciones mencionadas previamente, probablemente debido a la diferencia de altura.
Figura 6: Histograma de las frecuencias de Temperatura Máxima mensual para las
estaciones identificadas con código 153225,153307 y 385, para el periodo 2004-2014

En la figura 4 se reafirma, las gráficas anteriores, en las cuales, el comportamiento de


las estaciones 153225 y 153307 es muy similar.teniendo la segunda un poco de mayor
variabilidad en sus datos, lo cual se puede observar en un rango intercuartil
ligeramente mayor al de la primera. Podemos ver que el intervalo de datos de ambas
estaciones es muy similar y la mediana casi la misma. Al igual que en los dos casos
anteriores, podemos ver la disminución de lo valores de temperatura máxima en la
estación 385 respecto a las demás

Figura 7: Diagrama de cajas para los datos de Temperatura Máxima mensual para los
datos de estaciones identificadas con código 153225,153307 y 385, para el periodo 2004-2014

5.3 Resultados de Temperatura Mínima

Se pudo observar en la siguiente gráfica que la estación 385 tiene las temperaturas
mínimas más bajas, seguido de la estación 153225 y por último la estación 153307.
Esto se pudo notar por el patrón similar de las gráficas, sin embargo, este
comportamiento que parecía ser el común denominador mostró datos erráticos desde
el 2010 sobre todo para la estación 153225.

Figura 8: Serie de tiempo de la variación mensual de la temperatura mínima, para las


estaciones identificadas con código 153225,153307 y 385, para el periodo 2004-2014

El siguiente histograma confirmó las tendencias vistas en el gráfico anterior. Se pudo


notar nuevamente que de manera general, la estación 153307 tiene los valores de
temperatura mínima más grandes mientras que la estación 385 los más bajos. A
diferencia de la distribución de la Temperatura máxima, esta distribución no tiene un
comportamiento normal, presenta mayor variabilidad en sus 3 estaciones.

Figura 9: Histograma de las frecuencias acumuladas de temperatura mínima mensual para


las estaciones identificadas con código 153225,153307 y 385, para el periodo 2004-2014

Consecuentemente con la gráfica anterior, observamos gran variabilidad en las 3


estaciones, con medias muy distintas entre sí.
Figura 10: Diagrama de cajas para los datos de temperatura mínima mensual para los
datos de estaciones identificadas con código 153225,153307 y 385, para el periodo 2004-2014

5.4 Resultados de Precipitación

Figura11: grafica de barras de la precipitación mensual acumulada, para la estacion identificada con
código 153225, para el periodo 2004-2014.
Figura 12: grafica de barras de la precipitación mensual acumulada, para la estacion identificada con
código 153307, para el periodo 2004-2014.

Figura 13: grafica de barras de la precipitación mensual acumulada, para la estacione identificada con
código 385, para el periodo 2004-2014

En esta gráfica se observó una distribución chi-cuadrado dado que la acumulacion de


la precipitacion es paositica y esa concentrada en mayoría a la parte más baja.
Figura 14: Histograma de las frecuencias acumuladas de precipitación mensual acumulada
para las estaciones identificadas con código 153225,153307 y 385, para el periodo 2004-2014.

En esta gráfica corrobora la anterior dado que la media se mantiene casi similar y no
presenta una variación en la caja.

Figura 15: Diagrama de cajas para los datos de precipitación mensual acumulada para los
datos de estaciones identificadas con código 153225,153307 y 385, para el periodo 2004-2014

Climatología

Precipitación Media Temperatura Máxima Temperatura Mínima


Media Medio
31.77 °C 20.23 °C 1154 mm

Tabla 3: Valores medios de la variables estudiadas en la zona de estudio

5.4 Resultados de Correlación de variables con el ENSO

Tabla 3 . Coeficientes de Correlación Pearson y Spearman obtenidos con el programa R

El grado de correlación de Pearson y Spearman establecido con las 3 estaciones oscila


entre “nulas” y fuertes”, todas las estaciones presentan correlación lineal positiva.
Para la Estación 153307 la cual contrasta con las demás, la Temperatura Mínima se
correlaciona muy fuertemente con usando el coeficiente de Pearson y fuertemente
usando el coeficiente de Spearman.

6. Discusiones

● En los gráficos de caja presentados se pudo observar algunos valores,


aparentemente, atípicos (outliers) para la temperatura máxima en la estación
153225 y en la precipitación de las 3 estaciones; sin embargo, luego de un
análisis realizado con los cercanas internas y externas, se determinó que todos
esos valores son datos adyacentes por lo que no fueron retirados de este análisis.
● Los factores climáticos suelen sufrir varianza en función de los factores
geográficos de la zona en que se encuentren como la latitud, altitud y la
orientación del relieve, la distancia a una masa de agua y las corrientes marinas.
Basado en esto, se consideró la influencia de la altitud de las estaciones en la
medida de temperatura maxima y minima. Siendo que la estación 385 es la más
alta es esperable que obtenga las temperaturas más bajas comparada a las otras
dos, hecho que se ve reflejado en las gráficas ya presentadas.

● Como se pudo observar en los gráficos de temperatura máxima, las tendencias no


eran del todo similares por lo que en pro de encontrar cual era la tendencia
correcta se busco estaciones cercanas que pudieran aportar información útil para
el estudio. En un inicio, se consideraron las estaciones 153224 (Leimebamba) y
150401 (Ollates) pero no poseían datos de temperatura por lo que se decidió por
la estación 278 (Ramon). Luego de realizar las gráficas correspondientes, se
pudo ver que la nueva estación mantiene las tendencias de las dos teóricamente
correctas tanto para la temperatura mínima, máxima y la precipitación. Cabe
mencionar que no se eligió la estación 278 como parte del análisis exploratorio de
datos de este informe debido a que no pertenecía al departamento de San Martín y
la intención de este es hacer uno de la zona ya mencionada.

● Se encontró un fuerte grado de correlación bastante resaltante entre la


Temperatura Mínima y El Índice de El Niño Oceánico en la Estación 153307,
esto posiblemente sugiere que la 3 fases frías del Niño del periodo 2004-2014 las
cuales están representadas por valores ONI negativos,es decir que sean menores
que 0( Ver Anexo 4), tengan influencia significativa en la disminución de la
Temperatura en el distrito en el que se encuentra la estación de San Pablo. Es
muy importante confirmar una relación lineal mediante una regresión antes de
analizar los coeficientes de correlación , No obstante es interesante estudiar la
correlación de manera independiente a la regresión porque hay ocasiones en las
que interesa conocer el coeficiente de correlación de Pearson comparándolo con
un determinado valor o comparar dos coeficientes de correlación entre sí.

7. Conclusiones
● Se realizó exitosamente el análisis estadístico descriptivo de la data tratada por
medio de gráficas boxplot e histograma
● El clima de la región es la esperada por pertenecer a la selva: cálida y húmeda
aunque susceptible a la variación de la altura.
● Las repercusiones en las condiciones del tiempo que trae el evento del El Niño
son de carácter global, sin embargo los valores numéricos de los coeficientes de
correlación de Pearson y Spearman resultantes, demuestran que dichas
repercusiones no tienen un impacto homogéneo sobre la región de San Martín.

8. Bibliografía
● Berenson, M; Krehbiel, T. 2006. Estadistic (en línea). s.l., s.e. p. 105.
Disponible en
https://books.google.com.pe/books?id=Aw2NKbDJoZoC&pg=PA105&dq=coeficientes+de+c
orrelacion&hl=es&sa=X&ved=0ahUKEwic8ovn5fDdAhXL1lkKHXG9DtUQ6AEIJjAA#v=o
nepage&q=coeficientes de correlación &f=false.
● Calderón, J. 2011. Estadística para la tesis de postgrado. Carolina del Norte,
s.e. p. 55-56.
● Department of E and ASCU. 2006. Statistical methods in the atmospheric sciences. s.l., s.e.
● McPhaden, M. 2002. El Nino and La Niña: Causes and Global Consequences (en línea). s.l., s.e.
p. 12. Disponible en https://www.pmel.noaa.gov/gtmba/files/PDF/pubs/ElNinoLaNina.pdf.
● Organización Meteorológica Mundial. 2015. Nuevo enfoque de dos niveles para las “normales
climatológicas” (en línea, sitio web). Disponible en
https://public.wmo.int/es/media/news/nuevo-enfoque-de-dos-niveles-para-las-“normales-climato
lógicas”%0A%0A.
● Rodriguez Hernandez, D. 2015. ANÁLISIS DEL GRADIENTE TÉRMICO EN LAS
VERTIENTES ESTE Y OESTE DE LA ISLA DE LA PALMA (en línea). s.l., Universidad de la
Laguna. 9 p. Disponible en https://riull.ull.es/xmlui/bitstream/handle/915/1229/Analisis del
gradiente termico en las vertientes Este y Oeste de la isla de La Palma.pdf?sequence=1
● Promamazonia. DIAGNOSTICO Y MARCO ESTRATÉGICO DE LA BIODIVERSIDAD
PARA LA PROMOCIÓN DEL ECOTURISMO Y ZONAS POTENCIALES EN LA REGIÓN
SAN MARTIN.
● Pedroza, H; Dicovskyi, L. 2006. Sistemas de Análisis Estadísticos con SPSS. s.l., s.e. p. 50.
● Sheraz Mahdi, S. 2018. Climate Change and Agriculture in India: Impact an Adaptation. s.l., s.e.
p. 12.
9. Anexos

Anexo 1: Serie de tiempo de la variación mensual de la temperatura mínima, para las estaciones
identificadas con código 153225,153307,385 y 278, para el periodo 2004-2014.
(Fuente: Elaboración propia)
Anexo 2: Serie de tiempo de la variación mensual de la precipitación acumulada, para las estaciones
identificadas con código 153225,153307,385 y 278, para el periodo 2004-2014.
(Fuente:Elaboración propia)

Anexo 3:Serie de tiempo de la variación mensual de la temperatura máxima, para las estaciones
identificadas con código 153225,153307,385 y 278, para el periodo 2004-2014.
(Fuente:Elaboración propia)
Anexo 4:Gráfica del índice de el niño oceánico(ONI) vs la Temperatura promedio Mínima en Centígrados de la
Estación 153307 desde el año 2004 hasta el año 2014.
(Fuente:Elaboración Propia)

Anexo 5: Ubicación espacial de regiones del El Niño.


(Fuente:Hidromet Panamá)

También podría gustarte