Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TEMA 1: ESTADÍSTICA
Ángel Udías Moinelo
1. INTRODUCCIÓN .................................................................................................................................................................. 3
2. ESTADISTICA DESCRIPTIVA Y ANALISIS EXPLORATORIO DE DATOS .................................................................. 3
2.1. TIPOS DE VARIABLES Y CARACTERISTICAS DE LOS DATOS HIDROLOGICOS...................................................... 3
2.2. DESCRIPCION DE LOS DATOS ................................................................................................................................. 4
2.2.1. MEDIDAS DE TENDENCIA CENTRAL............................................................................................................... 4
2.2.2. MEDIDAS DE DISPERSION ............................................................................................................................... 5
2.2.3. MEDIDAS DE POSICION .................................................................................................................................... 5
2.2.4. MEDIDAS DE FORMA ........................................................................................................................................ 6
2.2.5. TRANSFORMACIONES ...................................................................................................................................... 6
2.2. ANALISIS DESCRIPTIVO GRAFICO .......................................................................................................................... 6
3. PROBABILIDAD (DESCRIBIENDO LA INCERTIDUMBRE) ............................................................................................... 8
3.1. INTERVALO DE CONFIANZA ..................................................................................................................................... 8
3.1.1. INTERPRETACION DE LA ESTIMACION POR INTERVALOS ......................................................................... 9
3.2. TEST DE HIPOTESIS ................................................................................................................................................ 10
3.2.1. CLASIFICACION DE LOS TEST DE HIPOTESIS ............................................................................................ 11
4. MODELOS DE REGRESION .............................................................................................................................................. 13
4.1. CORRELACION ......................................................................................................................................................... 13
4.2. REGRESION LINEAL SIMPLE .................................................................................................................................. 14
4.3. REGRESION LINEAL MULTIPLE ............................................................................................................................. 17
4.4. SERIES TEMPORALES............................................................................................................................................. 18
5. ANALISIS MULTIVARIADO ............................................................................................................................................... 19
5.1. ANALISIS DE LOS COMPONENTES PRINCIPALES............................................................................................... 20
5.2. ANALISIS DE CONGLOMERADOS (CLUSTER) ...................................................................................................... 21
6. CONCLUSIÓN .................................................................................................................................................................... 21
7. REFERENCIAS BIBLIOGRÁFICAS ................................................................................................................................... 22
Al igual que en otros muchos campos, en hidrología, la calidad y cantidad de datos que se
deben conseguir y procesar en cualquier estudio o proyecto es mayor. Esto supone mucha
información que debe ser analizada, resumida o utilizada para inferir, crear modelos, tomar
decisiones o extraer conclusiones. La aplicación de la estadística resulta fundamental en todas estas
tareas. La aplicación de la estadística al análisis de las variables hidrogeológicas tiene una
dependencia espacial y temporal en comparación con otros campos.
En este tema se realiza un rápido examen de los métodos estadísticos utilizados con más
frecuencia en el análisis de datos relativos a los recursos hídricos.
Una de las tareas más frecuentes en el análisis de datos hidrológicas es describir y resumir
dichos datos de manera que se resuman sus características importantes. "¿Cuál es la concentración
de sulfatos que se podría esperar tras las lluvias en un lugar determinado"? "¿"Cuanto varia la
conductividad hidráulica"? "¿"Que probabilidad tenemos de que se produzca una inundación en los
próximos 100 años"? La estadística descriptiva se encarga de analizar series de datos (por ejemplo,
la concentración de sulfato a lo largo del tiempo) para extraer conclusiones sobre el comportamiento
de las variables consideradas.
En la mayoría de las ocasiones los datos relativos a recursos hídricos tienen una o varias de
las siguientes características:
• No tienen valores negativos.
• Presentan valores atípicos.
Medi
Las medidas de posición dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la
muestra en tramos iguales:
• Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los
resultados.
• Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los
resultados.
• Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los
resultados. Percentil de orden k: se define como el valor de la variable por debajo del cual se
encuentra el k% de las observaciones de la variable en la muestra.
Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de
datos de la muestra. En concreto, podemos estudiar las siguientes características de la curva:
• Concentración: mide si los valores de la variable están más o menos uniformemente
repartidos a lo largo de la muestra. Un ejemplo de este tipo de estadísticos es el Índice de
Gini.
• Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la
misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda son
similares.
• Curtosis: analiza el grado de concentración que presentan los valores alrededor de la zona
central de la distribución. O lo que es lo mismo, indica el grado de aplastamiento respecto a la
distribución norma (se denominaría mesocurtica la de mayor similitud a la normal).
2.2.5. TRANSFORMACIONES
Antes de abordar análisis estadístico completo de unos datos, un primer paso consiste en
presentar esa información de forma que ésta se pueda visualizar de una manera más sistemática y
resumida. En muchas ocasiones los gráficos proveen al analista de información crucial para el
análisis de los datos que de otra manera es muy difícil obtener. Realizar cálculos estadísticos sin
examinar gráficamente los datos, puede conducir a equivocaciones. Un ejemplo evidente, sería el
representado en la siguiente figura, donde cada uno de los gráficos de dispersión muestra un
conjunto de datos diferente, pero todos ellos presentan el mismo valor para el coeficiente de
correlación.
Por último, y en lo que respecta a la descripción de los datos, suele ser necesario, para
posteriores análisis, comprobar la normalidad de alguna de las variables numéricas de las que se
dispone. Un diagrama de cajas o un histograma son gráficos sencillos que permiten comprobar, de
un modo puramente visual, la simetría y el "apuntamiento" de la distribución de una variable y, por lo
tanto, valorar su desviación de la normalidad. Existen otros métodos gráficos específicos para este
propósito, como son los gráficos P-P o Q-Q. En los primeros, se confrontan las proporciones
acumuladas de una variable con las de una distribución normal. Si la variable seleccionada coincide
con la distribución de prueba, los puntos se concentran en torno a una línea recta. Los gráficos Q-Q
se obtienen de modo análogo, esta vez representando los cuantiles de distribución de la variable
respecto a los cuantiles de la distribución normal.
La concentración media de nitratos en un acuífero poco profundo (bajo una región agrícola)
se calculó como 5,1 mg/l. ¿Qué certeza tenemos de dicha estimación? ¿Es ese valor estimado (5.1
mg/l) una violación del límite permitido (5 mg/l)? ¿Debe ser tratado de forma diferente que otro
acuífero que tiene una concentración media de 4,8 mg/l?
Estos diez intervalos son del 90% de confianza (de contener el verdadero valor de la media
poblacional). Es decir, la media verdadera (población) estará contenida en estos intervalos en el 90
% de las ocasiones. Así que, para los 10 intervalos de la tabla, se espera que nueve incluyan al
verdadero valor de la media poblacional (10), y que uno de los intervalos no lo contenga. Y esto es,
de hecho, lo que ocurre. Por supuesto que cuando solo se toma una muestra, el intervalo estimado a
partir de dicha muestra, puede contener o no el valor real (desconocido) de la media de la población.
La probabilidad de que el intervalo incluya el valor real es lo que se conoce como nivel de confianza.
La probabilidad de que el intervalo no contenga el valor real, se llama
Los científicos recogen datos con el fin de aprender acerca de los procesos y sistemas
representados por esos datos. A menudo tienen ideas previas (llamadas hipótesis), de cómo los
sistemas se comportan. Uno de los principales propósitos de la recogida de datos es probar si
esas hipótesis pueden ser justificadas, con las evidencias proporcionadas por los datos. Los test
estadísticos son análisis cuantitativos para determinar si las hipótesis pueden ser justificadas, o si es
preciso modificarla o rechazadas de plano.
Uno de las aplicaciones más frecuentes de las pruebas de hipótesis es evaluar y comparar
grupos de datos. En el análisis de los recursos hídricos se realizan este tipo de comparaciones con
mucha frecuencia. Por ejemplo, comparar la concentración de contaminantes en dos acuíferos, para
determinar si existen importantes diferencias. En ocasiones, en lugar de utilizar las pruebas de
4. MODELOS DE REGRESION
4.1. CORRELACION
200
r = 0, pero ...
0 10 20 30
Imaginemos que tenemos que investigar la relación entre dos variables continuas, por
ejemplo, concentración de sedimentos y flujo del agua en el rio, y que dicha relación sea lineal.
Podría ser muy útil poder cuantificar esta relación mediante un modelo. Posteriormente se podría
utilizar dicho modelo para predecir la cantidad de sedimentos en días que se midió el flujo y no se
midió la cantidad de sedimentos. Por supuesto, es deseable disponer de algún indicador de la
calidad de dicho modelo, con lo que tener una idea de si es razonable aplicarlo para la predicción de
los sedimentos.
Otro ejemplo podría ser, el estudio de las concentraciones de sedimentos en un río urbano
con el fin de determinar si las instalaciones de estanques de retención en toda la ciudad han
disminuido las concentraciones de sedimentos en los arroyos que llegan al rio. En primer lugar, se
aplica regresión lineal entre la concentración de sedimento y la descarga del río, con las medidas
realizadas antes de la instalación de los estanques. Así podremos determinar cuál es el efecto en la
concentración de sedimento de las variaciones en el flujo. Una vez instalados los estanques, se
realizan nuevas medidas, y restándole el primer modelo lineal (relación flujo con sedimentos), la
variación residual antes frente a después de la instalación de estanques puede ser comparado para
determinar su efecto.
En los ejemplos anteriores se aplica la regresión lineal entre las mismas variables (flujo de
agua y sedimentos) con objetivos diferentes. Las aplicaciones más frecuentes de la regresión lineal
son:
• Aprender algo acerca de la relación entre las dos variables
• Retirar una porción de la variación de una variable (una parte que no es de interés)
con el fin de obtener una mejor comprensión de algún otro, más interesante, la porción
de la variación
• Estimar o predecir los valores de una variable en base al conocimiento de otra
variable, para el que se disponga de más datos.
Se habla de modelos de regresión lineal simple cuando se contempla la relación entre una
variable continua de interés, llamada la variable respuesta (Y), y una única variable - la variable
explicativa (X).
Dónde:
a: es la ordenada en el origen, es decir, es la altura a la que la recta corta al eje Y. Se
denomina también término independiente.
b: también denominada pendiente es la inclinación de la recta, es decir, es el incremento que
se produce en la variable Y cuando la variable X aumenta una unidad.
ε: representa el error (la diferencia), entre el valor real de la variable de respuesta y el
estimado mediante el modelo de regresión.
Es importante verificar que los residuos tengan una distribución aleatoria, de lo contrario
tendríamos que reconsiderar que tipo de modelo aplicar a los datos, ya que el modelo lineal podría
no ser el adecuado.
ε ~ N (0, σ)
En la siguiente figura se observa a la izquierda un conjunto de puntos para los que se realiza
un ajuste a un modelo lineal. A la derecha se dibujan los residuos y se aprecia que no se distribuyen
Y = 14.3219 + 4.03183X
R-Sq = 0.995
35 2
Resi
Y 25 0
-1
15
-2
0 1 2 3 4 5 15 25 35
X Fits
Un resumen de los pasos para aplicar un modelo de regresión línea a un conjunto de datos
seria el siguiente:
1. Dibujar los datos en un diagrama de dispersión
2. Aplicar algún programa de análisis estadístico para que calcule la recta de regresión.
3. Dibujar la recta sobre el diagrama de dispersión del punto 1.
4. Dibujar los residuos del modelo.
En el ejemplo que se muestra en la figura anterior se quiere estimar el caudal (Y) a partir de la
información de la precipitación (X). El programa nos devuelve los valores de los parámetros, justo
debajo del nombre “Estimate”. Primero la b (pendiente), que él denomina como (Intercept) y justo
debajo la a (termino independiente). Así para ese ejemplo la ecuación de la recta será:
Con el objetivo de intentar explicar los posibles factores causantes de la contaminación del
agua subterránea en un acuífero, se recogen datos de múltiples posibles variables explicativas.
Cada variable es plausible como una influencia en las concentraciones de nitratos en el acuífero
superficial. Es probable que la contaminación no provenga de una única fuente, con lo que un
modelo de regresión lineal simple, probablemente no pueda explicar toda la variabilidad en la
concentración del contaminante debida a una sola de las variables explicativas. Se podría realizar un
modelo de regresión lineal simple para cada uno de las variables explicativas, pero con ello solo
tendríamos visiones parciales respecto a la influencia de cada una de ellas sobre la contaminación.
En este caso es más correcto aplicar un modelo de regresión lineal múltiple.
Regresión lineal múltiple (MLR) es la extensión de la regresión lineal simple (SLR) para el
caso de múltiples variables explicativas. El objetivo de esta relación es explicar tanto como sea
posible de la variación observada en la variable de respuesta (y), reduciendo al máximo la variación
que no es posible explicar ("ruido"). En la regresión lineal múltiple vamos a utilizar más de una
variable explicativa; esto nos va a ofrecer la ventaja de utilizar más información en la construcción del
modelo y, consecuentemente, realizar estimaciones más precisas.
El modelo de regresión lineal múltiple se representaría mediante la anterior ecuación donde
es preciso estimar todos los coeficientes: a, b1, b2, bn. El vector (X1,X2,…Xn) representa todas las
variables explicativas contempladas. Gráficamente, el modelo de regresión lineal múltiple en lugar de
buscar una recta que se ajusta a una nube de puntos en dos dimensiones, lo que busca es un plano
en la dimensión n, tal y como se aprecia en la siguiente figura para dos variables explicativas.
5. ANALISIS MULTIVARIADO
• Métodos de Dependencia:
o El estudio de la regresión múltiple nos permite averiguar hasta qué punto una variable
puede ser prevista conociendo otra. Se utiliza para intentar predecir el comportamiento de
ciertas variables a partir de otras, como por ejemplo los beneficios de una película a partir
del gasto en márketing y del gasto en producción.
• Métodos de Interdependencia:
o El análisis de los componentes principales procura determinar un sistema más pequeño de
variables que sinteticen el sistema original.
o El análisis clúster clasifica una muestra de entidades (individuos o variables) en un
número pequeño de grupos de forma que las observaciones pertenecientes a un grupo
sean muy similares entre sí y muy disimilares del resto. A diferencia del Análisis
discriminante se desconoce el número y la composición de dichos grupos.
En el apartado 4.2 de este manual ya se describió un método de dependencia, la regresión
lineal múltiple. A continuación, se describirán dos de los métodos de interdependencia usados con
más frecuencia.
Más matemáticamente, PCA utiliza una transformación lineal ortogonal para transformar los
datos de las variables, posiblemente correlacionados, a un nuevo sistema de coordenadas definido
La medida más utilizada para medir la similitud entre los casos es la matriz de correlación
entre los n x n casos. Sin embargo, también existen muchos algoritmos que se basan en la
maximización de una propiedad estadística llamada verosimilitud.
6. CONCLUSIÓN
Existe una gran variedad de técnicas estadística de gran utilidad para el hidrólogo y en
general para todos aquellos que tienen que realizar campañas para la toma de muestras, analizar
datos, construir modelos, etc.
En general esos métodos se suelen clasificar en dos grandes categorías, aquellas que sirven
para describir los datos (estadística descriptiva) y aquellos que se emplean para inferir. En este
capítulo se ha realizado un recorrido por los más utilizados en el campo de la hidrología, poniéndose
7. REFERENCIAS BIBLIOGRÁFICAS
MILLARD; NEERCHAL. (2001) Environmental Statistics with S-plus. CRC PLUS
HAAN, CH. (1977) Statistical Methods in hydrology. IOWA STATE UNIVERSITY PRESS.
MCCUEN, R. (1993) Microcomputer applications in statistical hydrology. PRENTICE HALL.
RICHARD O.GILBERT (1987) Statistical Methods for Environmental Pollution Monitoring. VAN NOSTRAND
REINHOLD
BROWN, C.E. (1998) Applied Multivariate Statistics in Geohydrology and Relade Sciences. SPRINGER.
BIVAND, ROGER S., PEBESMA, EDZER J., GOMEZ-RUBIO, VIRGILIO. (2008). Applied Spatial Data Analysis
with R. SERIES: USE R.