Está en la página 1de 22

MÓDULO 1.

TEMA 1: ESTADÍSTICA
Ángel Udías Moinelo

Curso 2022 - 2023


ÍNDICE DE CONTENIDOS

1. INTRODUCCIÓN .................................................................................................................................................................. 3
2. ESTADISTICA DESCRIPTIVA Y ANALISIS EXPLORATORIO DE DATOS .................................................................. 3
2.1. TIPOS DE VARIABLES Y CARACTERISTICAS DE LOS DATOS HIDROLOGICOS...................................................... 3
2.2. DESCRIPCION DE LOS DATOS ................................................................................................................................. 4
2.2.1. MEDIDAS DE TENDENCIA CENTRAL............................................................................................................... 4
2.2.2. MEDIDAS DE DISPERSION ............................................................................................................................... 5
2.2.3. MEDIDAS DE POSICION .................................................................................................................................... 5
2.2.4. MEDIDAS DE FORMA ........................................................................................................................................ 6
2.2.5. TRANSFORMACIONES ...................................................................................................................................... 6
2.2. ANALISIS DESCRIPTIVO GRAFICO .......................................................................................................................... 6
3. PROBABILIDAD (DESCRIBIENDO LA INCERTIDUMBRE) ............................................................................................... 8
3.1. INTERVALO DE CONFIANZA ..................................................................................................................................... 8
3.1.1. INTERPRETACION DE LA ESTIMACION POR INTERVALOS ......................................................................... 9
3.2. TEST DE HIPOTESIS ................................................................................................................................................ 10
3.2.1. CLASIFICACION DE LOS TEST DE HIPOTESIS ............................................................................................ 11
4. MODELOS DE REGRESION .............................................................................................................................................. 13
4.1. CORRELACION ......................................................................................................................................................... 13
4.2. REGRESION LINEAL SIMPLE .................................................................................................................................. 14
4.3. REGRESION LINEAL MULTIPLE ............................................................................................................................. 17
4.4. SERIES TEMPORALES............................................................................................................................................. 18
5. ANALISIS MULTIVARIADO ............................................................................................................................................... 19
5.1. ANALISIS DE LOS COMPONENTES PRINCIPALES............................................................................................... 20
5.2. ANALISIS DE CONGLOMERADOS (CLUSTER) ...................................................................................................... 21
6. CONCLUSIÓN .................................................................................................................................................................... 21
7. REFERENCIAS BIBLIOGRÁFICAS ................................................................................................................................... 22

M1T1. Estadística Página: 2 / 22


1. INTRODUCCIÓN

Al igual que en otros muchos campos, en hidrología, la calidad y cantidad de datos que se
deben conseguir y procesar en cualquier estudio o proyecto es mayor. Esto supone mucha
información que debe ser analizada, resumida o utilizada para inferir, crear modelos, tomar
decisiones o extraer conclusiones. La aplicación de la estadística resulta fundamental en todas estas
tareas. La aplicación de la estadística al análisis de las variables hidrogeológicas tiene una
dependencia espacial y temporal en comparación con otros campos.
En este tema se realiza un rápido examen de los métodos estadísticos utilizados con más
frecuencia en el análisis de datos relativos a los recursos hídricos.

2. ESTADISTICA DESCRIPTIVA Y ANALISIS EXPLORATORIO DE DATOS

Una de las tareas más frecuentes en el análisis de datos hidrológicas es describir y resumir
dichos datos de manera que se resuman sus características importantes. "¿Cuál es la concentración
de sulfatos que se podría esperar tras las lluvias en un lugar determinado"? "¿"Cuanto varia la
conductividad hidráulica"? "¿"Que probabilidad tenemos de que se produzca una inundación en los
próximos 100 años"? La estadística descriptiva se encarga de analizar series de datos (por ejemplo,
la concentración de sulfato a lo largo del tiempo) para extraer conclusiones sobre el comportamiento
de las variables consideradas.

2.1. TIPOS DE VARIABLES Y CARACTERISTICAS DE LOS DATOS HIDROLOGICOS

Las variables pueden ser de dos tipos:


• Cualitativas o atributos: no se pueden medir numéricamente (por ejemplo: país, región,
cuenca, rio, tipo de sustrato del suelo).
• Cuantitativas: tienen valor numérico (caudal, coste, concentración contaminante). Estas a su
vez se pueden clasificar en: discretas (número de días de sequía, días sin precipitación) y
continuas (caudal, precipitación diaria).

Otros conceptos importantes relativos al comportamiento de las variables son:


• Individuo: cualquier elemento que aporte información sobre el fenómeno que se estudia.
• Población: conjunto de todos los individuos (cuenca, punto de estudio, objetos, etc.) que
porten información sobre el fenómeno que se estudia. Por ejemplo, si estudiamos la
concentración de nitratos en un lago, la población podría ser tomar las medias diarias de la
concentración de nitratos en 100 puntos del lago.
• Muestra: subconjunto que seleccionamos de la población. Para el ejemplo anterior, una
muestra podría ser una medida semanal realizada durante el último año en tres puntos del
lago. Recoger información de todo lo que hemos considerado población podría ser complejo
(muy costoso), así que se suele seleccionar un subgrupo (muestra) que se entienda que es
suficientemente representativo.

En la mayoría de las ocasiones los datos relativos a recursos hídricos tienen una o varias de
las siguientes características:
• No tienen valores negativos.
• Presentan valores atípicos.

M1T1. Estadística Página: 3 / 22


• Presentan asimetría positiva (consecuencia de los dos puntos anteriores)
• No suelen seguir una distribución normal (consecuencia de los tres puntos anteriores).
• Solo se dispone de información por encima o por debajo de un cierto umbral (inundaciones).
• Presentan patrones estacionales.
• Dependen de otras variables no controladas. Es probable que los valores estén muy
correlados con el caudal, la conductividad, el tamaño de los sedimentos, etc.

2.2. DESCRIPCION DE LOS DATOS

Es la estimación de valores (estadísticos) que sirvan de resumen para la compresión de los


grupos de observaciones. En general, se suele incluir: un valor descriptivo para la tendencia central
de los datos, uno de la variabilidad, otros de la posición y forma (asimetría) de la distribución de
los datos.

2.2.1. MEDIDAS DE TENDENCIA CENTRAL

Las principales medidas de tendencia central son las siguientes:


• Media: es el valor medio ponderado de la serie de datos.
• Mediana: es el valor de la serie de datos que se sitúa justamente en el centro de la muestra.
Divide a la muestra en dos grupos con el mismo número de datos.
• Moda: es el valor que más se repite en la muestra.
La media y la mediana son solo aplicables a variables cuantitativas. La mediana tiene la ventaja de
no estar tan influida como la media por los valores extremos ("outliers")

M1T1. Estadística Página: 4 / 22


Medi

Medi

2.2.2. MEDIDAS DE DISPERSION

Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o


menos concentrados, o más o menos dispersos. Las más utilizadas son las siguientes:
• Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor
más elevado y el valor más bajo.
• Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como
sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el
número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el
tamaño de la muestra. La varianza siempre será mayor que cero. Cuanto más se aproxima a
cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más dispersos están.
• Desviación típica: Se calcula como raíz cuadrada de la varianza.
• Coeficiente de variación de Pearson: se calcula como cociente entre la desviación típica y la
media.
• Rango intercuartílico: P75- P25 = parecido al rango, pero menos sensible a valores extremos
(ver el apartado siguiente en Percentiles)

2.2.3. MEDIDAS DE POSICION

Las medidas de posición dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la
muestra en tramos iguales:
• Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los
resultados.
• Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los
resultados.
• Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los
resultados. Percentil de orden k: se define como el valor de la variable por debajo del cual se
encuentra el k% de las observaciones de la variable en la muestra.

M1T1. Estadística Página: 5 / 22


2.2.4. MEDIDAS DE FORMA

Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de
datos de la muestra. En concreto, podemos estudiar las siguientes características de la curva:
• Concentración: mide si los valores de la variable están más o menos uniformemente
repartidos a lo largo de la muestra. Un ejemplo de este tipo de estadísticos es el Índice de
Gini.
• Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la
misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda son
similares.

• Curtosis: analiza el grado de concentración que presentan los valores alrededor de la zona
central de la distribución. O lo que es lo mismo, indica el grado de aplastamiento respecto a la
distribución norma (se denominaría mesocurtica la de mayor similitud a la normal).

2.2.5. TRANSFORMACIONES

Transformar un conjunto de observaciones de una variable cuantitativa consiste en modificar


cada una de ellas mediante una misma operación matemática; así se obtiene el conjunto de datos
transformados. En muchas ocasiones, transformar o rescribir los datos de una variable facilita su
estudio pues genera distribuciones más simples y con buenas propiedades –simetría, media igual a
cero, desviación típica igual a uno– que las hacen más sencillas de analizar. Además, las
transformaciones permiten también comparar valores correspondientes a distribuciones distintas.

2.2. ANALISIS DESCRIPTIVO GRAFICO

Antes de abordar análisis estadístico completo de unos datos, un primer paso consiste en
presentar esa información de forma que ésta se pueda visualizar de una manera más sistemática y
resumida. En muchas ocasiones los gráficos proveen al analista de información crucial para el
análisis de los datos que de otra manera es muy difícil obtener. Realizar cálculos estadísticos sin
examinar gráficamente los datos, puede conducir a equivocaciones. Un ejemplo evidente, sería el
representado en la siguiente figura, donde cada uno de los gráficos de dispersión muestra un
conjunto de datos diferente, pero todos ellos presentan el mismo valor para el coeficiente de
correlación.

M1T1. Estadística Página: 6 / 22


6

Los gráficos son esenciales para dos propósitos:


• Proporcionan una visión para el analista en los datos bajo control (análisis exploratorio)
• Para ilustrar conceptos importantes a la hora de presentar los resultados a los demás.
Además de los gráficos de dispersión que se emplean para examinar datos bivariantes,
algunos de los gráficos más útiles son los gráficos de sectores o de barras, para examinar
variables categóricas y los histogramas, diagramas de cajas ("boxplot") o para examinar variables
numéricas continúas.
Para construir un histograma, se divide el rango de valores de la variable en intervalos de
igual amplitud, representando sobre cada intervalo un rectángulo que tiene a este segmento como
base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre
las frecuencias absolutas (o relativas) de los datos en cada intervalo y el área de los rectángulos.
Uniendo los puntos medios del extremo superior de las barras del histograma, se obtiene una imagen
que se llama polígono de frecuencias. Dicha figura pretende mostrar, de la forma más simple, en
qué rangos se encuentra la mayor parte de los datos.

Dos histogramas representando el mismo conjunto de medidas de caudales en


un rio. Con este ejemplo se aprecia la influencia que tiene el tamaño del
intervalo a la hora de que el histograma represente "lo que esconden" los
datos.

M1T1. Estadística Página: 7 / 22


En los diagramas de cajas, el rectángulo central indica el rango en el que se concentra el
50% central de los datos. Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribución. La
línea central en la caja es la mediana. De este modo, si la variable es simétrica, dicha línea se
encontrará en el centro de la caja. Los extremos de los "bigotes" que salen de la caja son los valores
que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos
de la distribución. Se suelen también representar aquellas observaciones que caen fuera de este
rango ("outliers" o valores extremos). Esto resulta especialmente útil para comprobar, gráficamente,
posibles errores en nuestros datos. En general, los diagramas de cajas resultan más apropiados para
representar variables que presenten una gran desviación de la distribución normal y cuando se
dispone de datos en distintos grupos de sujetos.

Por último, y en lo que respecta a la descripción de los datos, suele ser necesario, para
posteriores análisis, comprobar la normalidad de alguna de las variables numéricas de las que se
dispone. Un diagrama de cajas o un histograma son gráficos sencillos que permiten comprobar, de
un modo puramente visual, la simetría y el "apuntamiento" de la distribución de una variable y, por lo
tanto, valorar su desviación de la normalidad. Existen otros métodos gráficos específicos para este
propósito, como son los gráficos P-P o Q-Q. En los primeros, se confrontan las proporciones
acumuladas de una variable con las de una distribución normal. Si la variable seleccionada coincide
con la distribución de prueba, los puntos se concentran en torno a una línea recta. Los gráficos Q-Q
se obtienen de modo análogo, esta vez representando los cuantiles de distribución de la variable
respecto a los cuantiles de la distribución normal.

3. PROBABILIDAD (DESCRIBIENDO LA INCERTIDUMBRE)

La concentración media de nitratos en un acuífero poco profundo (bajo una región agrícola)
se calculó como 5,1 mg/l. ¿Qué certeza tenemos de dicha estimación? ¿Es ese valor estimado (5.1
mg/l) una violación del límite permitido (5 mg/l)? ¿Debe ser tratado de forma diferente que otro
acuífero que tiene una concentración media de 4,8 mg/l?

3.1. INTERVALO DE CONFIANZA

La mediana y la media muestral estiman el centro de la población a la que pertenece la


muestra. Por si mismas, dichos valores estimados (media y mediana) no retratan la fiabilidad (o falta
de fiabilidad) de estas estimaciones. Por ejemplo, supongamos que existen dos conjuntos de datos X
e Y, ambos con una media muestral de 5 y con el mismo número de datos. Los datos del conjunto Y

M1T1. Estadística Página: 8 / 22


están situados muy cercanos alrededor del 5, mientras que los datos del conjunto X presentan mayor
variabilidad. En este caso las estimaciones puntuales de 5 para el conjunto X son mucho menos
fiables que las del conjunto Y, debido a la mayor variabilidad de los datos del conjunto X. En otras
palabras, hay que ser mucho más cuidadoso cuando se afirma que 5 representa a la media de la
población X que a la media de la población Y. Si solo disponemos del valor del estimador (ya sea la
media o la mediana) no tenemos ninguna idea de esta diferencia (confianza).
Como una alternativa a las estimaciones puntuales, las estimaciones mediante intervalo
son intervalos que tienen una probabilidad establecida de contener el valor real de la población. Los
intervalos son más anchos para los conjuntos de datos que tienen una mayor variabilidad. Así, en el
ejemplo anterior, un intervalo entre 4.7 y 5.3 puede tener un 95% de probabilidad de contener el
(desconocido) verdadero valor medio poblacional de Y. Se necesitaría un intervalo mucho más
amplio, por ejemplo, entre 2,0 y 8,0, para tener la misma probabilidad de contener la verdadera
media del conjunto X. La diferencia en la fiabilidad de ambas estimaciones queda clara cuando se
muestra el intervalo de confianza de la estimación. Hay dos tipos de información que el intervalo
contiene y la estimación puntual no:
• Una declaración de la probabilidad o posibilidad de que el intervalo contenga el valor real
de la población (su fiabilidad).
• Una declaración de la probabilidad de que un valor especifico provenga de la población en
estudio.
Los Intervalo estimados con el primer propósito son llamados intervalos de confianza;
mientras que los intervalos estimados para el segundo propósito son llamados intervalos de
predicción.

3.1.1. INTERPRETACION DE LA ESTIMACION POR INTERVALOS

Supongamos que el verdadero valor de la concentración media (μ) de la contaminación de un


acuífero fuese 10 (valor poblacional). Supongamos también, que el valor de la varianza poblacional
(σ2) sea igual a 1. En la práctica, estos valores nunca se conocen, así que se toman muestras, y de
cada una de ellas se estima su media (x) y su varianza (s2). Se dispone de dinero para tomar 12
muestras el próximo año. Por lo que se toma una por mes, seleccionando al azar el día del mes.
Para ese conjunto de 12 muestras se calculan x y s2. Aunque en realidad únicamente se toma una
muestra al mes durante ese periodo anual, para explicar el concepto de estimación por intervalos,
vamos a suponer que se tomaron 10 muestras por mes. Con lo que dispondríamos de 10 series de
12 muestras, con lo que podríamos calcular 10 conjuntos de medias (x) y varianzas (s2). Los
resultados se muestran en la siguiente tabla.
Muestra N Media Desviación st. Intervalo de confianza del 90%
1 12 10.06 1.11 (9.49 hasta 10.64)
2 12 10.60 0.81 *(10.18 hasta 11.02)
3 12 9.95 1.26 (9.29 hasta 10.60)
4 12 10.18 1.26 (9.52 hasta 10.83)
5 12 10.17 1.33 (9.48 hasta 10.85)
6 12 10.22 1.19 (9.60 to 10.84)
7 12 9.71 1.51 (8.92 to 10.49)
8 12 9.90 1.01 (9.38 to 10.43)
9 12 9.95 0.10 (9.43 to 10.46)

M1T1. Estadística Página: 9 / 22


10 12 9.98 1.37 (9.17 to 10.59)

Estos diez intervalos son del 90% de confianza (de contener el verdadero valor de la media
poblacional). Es decir, la media verdadera (población) estará contenida en estos intervalos en el 90
% de las ocasiones. Así que, para los 10 intervalos de la tabla, se espera que nueve incluyan al
verdadero valor de la media poblacional (10), y que uno de los intervalos no lo contenga. Y esto es,
de hecho, lo que ocurre. Por supuesto que cuando solo se toma una muestra, el intervalo estimado a
partir de dicha muestra, puede contener o no el valor real (desconocido) de la media de la población.
La probabilidad de que el intervalo incluya el valor real es lo que se conoce como nivel de confianza.
La probabilidad de que el intervalo no contenga el valor real, se llama

α =1- nivel de confianza

La anchura de un intervalo de confianza es una función de la forma de la distribución de los


datos (su variabilidad y asimetría), el tamaño de la muestra, y del nivel de confianza deseado. A
medida que el nivel de confianza aumenta la anchura de intervalo también aumenta, porque un
intervalo más grande es más probable que contenga el valor verdadero que un intervalo más
estrecho. Así, un intervalo de confianza del 95% será más ancho que un intervalo de 90% para los
mismos datos.

3.2. TEST DE HIPOTESIS

Los científicos recogen datos con el fin de aprender acerca de los procesos y sistemas
representados por esos datos. A menudo tienen ideas previas (llamadas hipótesis), de cómo los
sistemas se comportan. Uno de los principales propósitos de la recogida de datos es probar si
esas hipótesis pueden ser justificadas, con las evidencias proporcionadas por los datos. Los test
estadísticos son análisis cuantitativos para determinar si las hipótesis pueden ser justificadas, o si es
preciso modificarla o rechazadas de plano.
Uno de las aplicaciones más frecuentes de las pruebas de hipótesis es evaluar y comparar
grupos de datos. En el análisis de los recursos hídricos se realizan este tipo de comparaciones con
mucha frecuencia. Por ejemplo, comparar la concentración de contaminantes en dos acuíferos, para
determinar si existen importantes diferencias. En ocasiones, en lugar de utilizar las pruebas de

M1T1. Estadística Página: 10 / 22


hipótesis, las conclusiones se dan basándose en la opinión del experto. Las pruebas de hipótesis
tienen al menos dos ventajas sobre la opinión del experto:
• Garantizan que, para un mismo conjunto de datos, todos los analistas, utilizando los
mismos métodos, llegará al mismo resultado. Los cálculos pueden ser reproducidos.
• Dan una medida de la certeza de la evidencia (el p-valor). La decisión de rechazar una
hipótesis se ve aumentada por el riesgo de que dicha decisión sea incorrecta.

3.2.1. CLASIFICACION DE LOS TEST DE HIPOTESIS

Las numerosas variedades de las pruebas de hipótesis a menudo causan confusión


innecesaria a aquellos que tienen que aplicarlos. Las pruebas se pueden clasificar en cinco tipos
principales que se muestran en la figura siguiente, basándose en las escalas de medición de los
datos que se están examinando. Dentro de estas categorías, se deben considerar también dos
grandes divisiones (paramétricas o no paramétricas) de las pruebas de hipótesis atendiendo a la
forma de distribución de los datos. Es decir, los datos, junto con los objetivos del estudio,

determinan qué tipo de test de hipótesis se debe emplear.


Los términos de variable de respuesta y variable explicativa se utilizan en la siguiente
descripción. Una variable de respuesta es aquella cuya variación se está estudiando. En el caso de
la regresión, por ejemplo, la variable de respuesta es a veces llamada la "variable dependiente" o
"variable y". Una variable explicativa es utilizada para explicar por qué y cómo la magnitud de la
respuesta cambia. Con un t-test, por ejemplo, se comparan la variable explicativa de dos conjuntos
de datos.
De las cinco categorías de test de la figura anterior, la diferencia entre unas y otras es sólo las
escalas de medición de las variables de respuesta y las variables explicativas en estudio. Así pues, lo
primero que tenemos que tener en cuenta a la hora de elegir un test es el tipo de escala de las
variables, que pueden ser: continuas o categóricas. Y lo siguiente a tener en cuenta es si podemos
realizar una prueba paramétrica o debe ser no paramétrica (dentro de cada uno de los grupos
anteriores existen pruebas de ambos tipos).
Centrándonos de nuevo en la clasificación de la figura anterior, comenzamos por las tres
categorías de la fila superior, las cuales son similares en que la variable de respuesta se mide en una
escala continua. Ejemplos de variables que tienen una escala continua son la concentración, el
caudal, la porosidad, y muchos de las características típicas de los recursos hídricos. Los análisis

M1T1. Estadística Página: 11 / 22


representados por las dos categorías de la parte inferior de la figura, en contraste, tienen variables de
respuesta medidas sólo en una escala de medidas categóricas o agrupadas. Estas variables sólo
pueden tomar algunos valores dados. A menudo se designan como letras o valores enteros. Las
variables categóricas se utilizan principalmente como variables explicativas por ejemplo para indicar
el tipo de acuífero, el mes, el tipo de uso del suelo, y el número de la estación. Entre otras variables
categóricas que se utilizan como variables de respuesta se incluyen encima/debajo de un límite de
referencia (etiquetable como 0 ó 1), la presencia o ausencia de una especie en particular, y
bajo/medio/alto riesgo de contaminación.
El cuadro de la parte superior izquierda representa las pruebas de hipótesis de dos y múltiples
muestras como la suma de rangos y t-test. Estos test determinan si el valor central de una variable
respuesta continua (como concentración) es diferente para dos o más grupos de variables
explicativas (como por ejemplo los acuíferos A, B y C. Un mismo acuífero en dos años distintos).
El cuadro de la parte superior derecha representa dos métodos de uso frecuente, la regresión
lineal y la correlación. En ambos se relacionan una variable de respuesta continua (la variable
dependiente) a una variable explicativa continua (la variable independiente). Ejemplos típicos podrían
ser la regresión de la magnitud de inundación en los últimos 100 años frente a características de la
cuenca, y las correlaciones entre las concentraciones de dos componentes químicos. El análisis de
las tendencias en el tiempo es un caso especial de esta clase de métodos, donde la variable
explicativa de interés primario es el tiempo (serie temporal).
La caja superior central es una mezcla de estos dos enfoques, llamado análisis de
covarianza. En el que una variable de respuesta continua se relaciona con varias variables
explicativas, algunas de las cuales son continuas y otras categóricas.
El cuadro de la izquierda inferior representa una situación similar a la de uso de t-tests o
análisis de la varianza, excepto que la variable de respuesta es categórica. Ejemplos incluyen la
determinación de la probabilidad de encontrar compuestos orgánicos volátiles por encima del límite
permitido dependiendo de los usos del suelo (forestal, agrícola, etc.). Mediante las tablas de
contingencia es posible medir apropiadamente la asociación entre dos variables categóricas.
El cuadro de la parte inferior derecha muestra que una relación similar a la regresión puede
ser aplicada para el caso de que la variable de respuesta sea categórica. Esta técnica se llama
regresión logística y por ejemplo se aplica cuando, la probabilidad de encontrar una concentración
detectable puede relacionarse con variables continuas como la densidad de población, el porcentaje
de superficie impermeable, intensidades de riego, etc. La regresión logística también puede
incorporar variables explicativas categóricas en un contexto de regresión múltiple, por lo que es el
equivalente a un análisis de covarianza para las variables categóricas de respuesta.
Cuando se aplica cualquiera de todos los tipos de test que acabamos de comentar (las cinco
categorías), se debe tener en cuenta también como es la distribución de datos
Las pruebas de hipótesis que asumen que los datos tienen una distribución particular (por lo
general una distribución normal, se llaman pruebas paramétricas. Esto es porque la información
contenida en los datos se resume por los parámetros, por lo general la media y la desviación
estándar, y los test estadísticos se calcula utilizando estos parámetros. Este es un proceso eficiente
si los datos realmente siguen la distribución supuesta. Cuando no lo hacen, sin embargo, los
parámetros sólo pueden representar mal lo que está ocurriendo realmente. El test resultante puede
llegar a una conclusión incorrecta, ya que carece de sensibilidad (la potencia) para detectar efectos
reales.
Las pruebas de hipótesis que no requieren que los datos siguán una distribución particular se
llaman pruebas no paramétricas. La información se extrae de los datos mediante la comparación de
cada valor con todos los demás (en la clasificación de los datos) en lugar de por los parámetros de
computación.

M1T1. Estadística Página: 12 / 22


Un resumen de los pasos para aplicar un test de hipótesis a un conjunto de datos sería el
siguiente:
1. Elegir la prueba apropiada
2. Establecer la hipótesis nula y la hipótesis alternativa.
3. Decidir sobre una tasa de error α aceptable.
4. Calcular la prueba estadística de los datos.
5. Calcular el valor de p.
6. Rechazar la hipótesis nula si p ≤ α

4. MODELOS DE REGRESION

4.1. CORRELACION

Las concentraciones de pesticidas y nitratos en los acuíferos superficiales se miden en los


pozos en un determinado área. Para cada muestra, la concentración de uno de los contaminantes se
representa gráficamente enfrentándola a la concentración del otro. Se observa que cuando la
concentración de pesticida aumenta, también lo hace la concentración de nitratos. ¿Cómo se puede
medir y resumir la intensidad de esta asociación entre la concentración de los dos contaminantes?
¿Cómo puede medirse la intensidad de la relación entre la cantidad de precipitación por hora y la
concentración de un contaminante?
Una de las posibilidades para medir la intensidad de la asociación entre dos variables
continuas es utilizar el coeficiente de correlación. Este coeficiente también sirve para determinar si
el patrón observado difiere mucho o poco de lo que se espera.
Con independencia de cómo se calcule el coeficiente de correlación, los datos siempre deben
ser representados sobre un diagrama de dispersión. Ninguna medida numérica puede sustituir a la
información que aporta la representación gráfica de los datos. Un ejemplo lo vimos ya en la figura del
apartado 2.2 de este manual, donde se representaban seis diagramas de dispersión
correspondientes a seis grupos de medidas. Todas ellas tenían un coeficiente de correlación lineal de
0,70, ¡sin embargo, los datos eran radicalmente diferentes! Nunca se deben calcular coeficientes de
correlación y asumir que los datos se distribuyen como los del cuadro central inferior en la figura del
apartado 2.2. Conjuntos de datos con relaciones entre ambas variables muy diferentes pueden
producir el mismo coeficiente de correlación, y variables con fuerte interrelación entre sí pueden tener
coeficientes de correlación muy bajos. Un ejemplo de esto último se aprecia en la siguiente figura,
donde el diagrama de dispersión muestra una intensa relación "no lineal" entre dos variables y el
valor del coeficiente de correlación es nulo.
Además de una referencia de la intensidad de la asociación entre dos variables, el coeficiente
de correlación nos indica si al aumentar una de las variables aumenta o disminuye la otra, o si sus
patrones de variación son totalmente ajenos. La correlación no proporciona evidencia de una
relación causa-efecto entre las dos variables. Una variable puede provocar la otra, como por
ejemplo la precipitación y la escorrentía. O también puede suceder que ambos compartan la misma
causa, por ejemplo, la concentración de dos solutos en un rio medidos a lo largo del tiempo (ya que
la concentración de ambos solutos dependerá, con toda seguridad de la misma fuente del agua). La
evidencia de la causalidad debe venir de fuera del análisis estadístico - a partir del conocimiento
de los procesos implicados.

M1T1. Estadística Página: 13 / 22


El coeficiente de correlación sólo mide relación LINEAL

200

r = 0, pero ...

Relación casi perfecta,


100
aunque no lineal.

0 10 20 30

4.2. REGRESION LINEAL SIMPLE

Imaginemos que tenemos que investigar la relación entre dos variables continuas, por
ejemplo, concentración de sedimentos y flujo del agua en el rio, y que dicha relación sea lineal.
Podría ser muy útil poder cuantificar esta relación mediante un modelo. Posteriormente se podría
utilizar dicho modelo para predecir la cantidad de sedimentos en días que se midió el flujo y no se
midió la cantidad de sedimentos. Por supuesto, es deseable disponer de algún indicador de la
calidad de dicho modelo, con lo que tener una idea de si es razonable aplicarlo para la predicción de
los sedimentos.
Otro ejemplo podría ser, el estudio de las concentraciones de sedimentos en un río urbano
con el fin de determinar si las instalaciones de estanques de retención en toda la ciudad han
disminuido las concentraciones de sedimentos en los arroyos que llegan al rio. En primer lugar, se
aplica regresión lineal entre la concentración de sedimento y la descarga del río, con las medidas
realizadas antes de la instalación de los estanques. Así podremos determinar cuál es el efecto en la
concentración de sedimento de las variaciones en el flujo. Una vez instalados los estanques, se
realizan nuevas medidas, y restándole el primer modelo lineal (relación flujo con sedimentos), la
variación residual antes frente a después de la instalación de estanques puede ser comparado para
determinar su efecto.
En los ejemplos anteriores se aplica la regresión lineal entre las mismas variables (flujo de
agua y sedimentos) con objetivos diferentes. Las aplicaciones más frecuentes de la regresión lineal
son:
• Aprender algo acerca de la relación entre las dos variables
• Retirar una porción de la variación de una variable (una parte que no es de interés)
con el fin de obtener una mejor comprensión de algún otro, más interesante, la porción
de la variación
• Estimar o predecir los valores de una variable en base al conocimiento de otra
variable, para el que se disponga de más datos.

Se habla de modelos de regresión lineal simple cuando se contempla la relación entre una
variable continua de interés, llamada la variable respuesta (Y), y una única variable - la variable
explicativa (X).

M1T1. Estadística Página: 14 / 22


El modelo de regresión para un conjunto de datos (X e Y), es la ecuación de la recta que
mejor se ajusta a dicho conjunto de datos. En la figura superior izquierda se ven algunas posibles
rectas para un mismo conjunto de puntos.
La recta de regresión es una función de la forma:

Dónde:
a: es la ordenada en el origen, es decir, es la altura a la que la recta corta al eje Y. Se
denomina también término independiente.
b: también denominada pendiente es la inclinación de la recta, es decir, es el incremento que
se produce en la variable Y cuando la variable X aumenta una unidad.
ε: representa el error (la diferencia), entre el valor real de la variable de respuesta y el
estimado mediante el modelo de regresión.

Una forma generalizada de estimar el modelo de regresión lineal es la aplicación de la


técnica de Mínimos Cuadrados Ordinarios (MCO). Dicha técnica permite determinar cuáles son los
coeficientes (pendiente y corte con el eje) de la recta con los que la suma de los cuadrados de los
residuos toma un valor mínimo. Los residuos son la diferencia entre el valor de la observación
(variable dependiente) y el predicho por el modelo lineal en cada uno de los puntos (valores de la
variable explicativa).

Es importante verificar que los residuos tengan una distribución aleatoria, de lo contrario
tendríamos que reconsiderar que tipo de modelo aplicar a los datos, ya que el modelo lineal podría
no ser el adecuado.
ε ~ N (0, σ)

En la siguiente figura se observa a la izquierda un conjunto de puntos para los que se realiza
un ajuste a un modelo lineal. A la derecha se dibujan los residuos y se aprecia que no se distribuyen

M1T1. Estadística Página: 15 / 22


aleatoriamente, lo que indicaría que a pesar del buen coeficiente de correlación del ajuste el modelo
no es el más adecuado.
Modelo lineal Residuos frente a valores previstos

Y = 14.3219 + 4.03183X
R-Sq = 0.995
35 2

Resi
Y 25 0

-1

15
-2
0 1 2 3 4 5 15 25 35
X Fits

Los residuos contienen información


Modelo no adecuado

Un resumen de los pasos para aplicar un modelo de regresión línea a un conjunto de datos
seria el siguiente:
1. Dibujar los datos en un diagrama de dispersión
2. Aplicar algún programa de análisis estadístico para que calcule la recta de regresión.
3. Dibujar la recta sobre el diagrama de dispersión del punto 1.
4. Dibujar los residuos del modelo.

El programa de análisis estadístico nos devolverá un resultado similar al siguiente:

En el ejemplo que se muestra en la figura anterior se quiere estimar el caudal (Y) a partir de la
información de la precipitación (X). El programa nos devuelve los valores de los parámetros, justo
debajo del nombre “Estimate”. Primero la b (pendiente), que él denomina como (Intercept) y justo
debajo la a (termino independiente). Así para ese ejemplo la ecuación de la recta será:

M1T1. Estadística Página: 16 / 22


Un poco más abajo tenemos el valor del coeficiente de correlación, R2 (R-squared). Este
coeficiente toma valores entre -1 y 1, si es muy próximo a cero indica que no existe relación entre las
dos variables. Si es próximo a 1 o a -1 indica que hay relación fuerte. En el ejemplo anterior el valor
es alto (próximo a 1) lo que nos indica que la variabilidad explicada del caudal proviene en el 95.6 %
de las precipitaciones. Es decir, tenemos un muy buen ajuste. En la última línea (a la derecha)
tenemos el p-valor del ajuste. En este caso este valor es muy próximo a cero, con lo que tenemos
bastante confianza en los valores estimados de los parámetros.

4.3. REGRESION LINEAL MULTIPLE

Con el objetivo de intentar explicar los posibles factores causantes de la contaminación del
agua subterránea en un acuífero, se recogen datos de múltiples posibles variables explicativas.
Cada variable es plausible como una influencia en las concentraciones de nitratos en el acuífero
superficial. Es probable que la contaminación no provenga de una única fuente, con lo que un
modelo de regresión lineal simple, probablemente no pueda explicar toda la variabilidad en la
concentración del contaminante debida a una sola de las variables explicativas. Se podría realizar un
modelo de regresión lineal simple para cada uno de las variables explicativas, pero con ello solo
tendríamos visiones parciales respecto a la influencia de cada una de ellas sobre la contaminación.
En este caso es más correcto aplicar un modelo de regresión lineal múltiple.

Regresión lineal múltiple (MLR) es la extensión de la regresión lineal simple (SLR) para el
caso de múltiples variables explicativas. El objetivo de esta relación es explicar tanto como sea
posible de la variación observada en la variable de respuesta (y), reduciendo al máximo la variación
que no es posible explicar ("ruido"). En la regresión lineal múltiple vamos a utilizar más de una
variable explicativa; esto nos va a ofrecer la ventaja de utilizar más información en la construcción del
modelo y, consecuentemente, realizar estimaciones más precisas.
El modelo de regresión lineal múltiple se representaría mediante la anterior ecuación donde
es preciso estimar todos los coeficientes: a, b1, b2, bn. El vector (X1,X2,…Xn) representa todas las
variables explicativas contempladas. Gráficamente, el modelo de regresión lineal múltiple en lugar de
buscar una recta que se ajusta a una nube de puntos en dos dimensiones, lo que busca es un plano
en la dimensión n, tal y como se aprecia en la siguiente figura para dos variables explicativas.

M1T1. Estadística Página: 17 / 22


4.4. SERIES TEMPORALES

Las concentraciones y cargas de fosfatos han sido medidas en numerosos afluentes de un


estuario durante un periodo de 20 años. ¿Han cambiado las concentraciones y/o las cargas con el
tiempo? ¿Se han tenido en cuenta los cambios en el flujo (los primeros años fueron un período muy
seco) cuando se han producido cambios en las concentraciones, o son todos los cambios,
simplemente debidos a más precipitaciones en los últimos años? ¿Existe un efecto observable
asociado con la prohibición de los compuestos de fósforo en los detergentes, que se implementó en
la mitad del periodo analizado?
Los niveles de agua subterránea se registraron en muchos pozos en un área de estudio
durante más de 14 años. Durante el noveno año se incrementa drásticamente la cantidad de agua
extraída. ¿Hay evidencia de la disminución de los niveles de agua en los pozos de la región después
del aumento de los bombeos?
Las series temporales se usan para estudiar la relación causal entre diversas variables que
cambian con el tiempo y se influyen entre sí. Desde el punto de vista probabilístico una serie
temporal es una sucesión de variables aleatorias indexadas según parámetro creciente con el
tiempo. Cuando la esperanza matemática de dichas variables aleatorias es constante o varía de
manera cíclica, se dice que la serie es estacionaria y no tiene tendencia secular. Muchas series
temporales tienen una tendencia creciente (por ejemplo, el número de automóviles en uso en casi
todos los países durante los últimos cincuenta años) o decreciente (por ejemplo, el número de
personas que trabajan en la agricultura); otras no tienen tendencia (la luminosidad a horas sucesivas,
que varía cíclicamente a lo largo de las 24 horas del día) y son estacionarias.
El análisis más clásico de las series temporales se basa en la suposición de que los valores
que toma la variable de observación es la consecuencia de tres componentes, cuya actuación
conjunta da como resultado los valores medidos, estos componentes son:
1. Tendencia: indica la evolución general del fenómeno observado, es una componente de
la serie que refleja la evolución a largo plazo. Por ejemplo, la tendencia a incrementarse la
temperatura, independientemente de los cambios estacionales o de que un mes en
concreto sea especialmente frio o caluroso.
2. Variación estacional: Es el movimiento periódico de corto plazo. Se trata de una
componente causal debida a la influencia de ciertos fenómenos que se repiten de manera

M1T1. Estadística Página: 18 / 22


periódica en un año (las estaciones), una semana (los fines de semana) o un día (las
horas puntas) o cualquier otro periodo. Recoge las oscilaciones que se producen en esos
períodos de repetición.
3. Variación aleatoria o ruido accidental: de carácter errático, también denominada residuo,
no muestran ninguna regularidad (salvo las regularidades estadísticas), debidos a
fenómenos de carácter ocasional como pueden ser tormentas, terremotos, inundaciones,
huelgas, guerras, avances tecnológicos, etc.

5. ANALISIS MULTIVARIADO

El análisis multivariante se compone de una colección de métodos que se puede utilizar


cuando varias mediciones se hacen en cada individuo u objeto en una o más muestras. Nos
referiremos a las medidas como variables y a los individuos u objetos como unidades (unidades de
investigación, unidades de muestreo, o unidades experimentales) u observaciones. En la práctica, los
conjuntos de datos multivariantes son comunes, aunque no siempre se analizan como tales. Sin
embargo, el uso exclusivo de los procedimientos univariados con esos datos no es una solución
adecuada, ya que únicamente se extrae una parte de la información que contienen. Si los objetos
son unidades de muestreo ecológicos, las variables pueden ser medidas fisicoquímico como la
abundancia de una determinada especie.
El análisis multivariante es una herramienta estadística que estudia el comportamiento de
tres o más variables al mismo tiempo. Se usan principalmente para buscar las variables menos
representativas para poder eliminarlas, simplificando así modelos estadísticos en los que el número
de variables sea un problema y para comprender la relación entre varios grupos de variables. Las
técnicas multivaribles se suelen agrupar en dos categorías:

• Métodos de Dependencia:
o El estudio de la regresión múltiple nos permite averiguar hasta qué punto una variable
puede ser prevista conociendo otra. Se utiliza para intentar predecir el comportamiento de
ciertas variables a partir de otras, como por ejemplo los beneficios de una película a partir
del gasto en márketing y del gasto en producción.

M1T1. Estadística Página: 19 / 22


o El análisis de la correlación canónica intenta analizar la posible existencia de relación
entre dos grupos de variables.
o El análisis discriminante nos puede dar una función discriminante que puede ser utilizada
para distinguir entre dos o más grupos, y de este modo tomar decisiones.
o El análisis multivariante de la varianza (MANOVA), extendiendo el análisis de la varianza
(ANOVA), cubre los casos en los que se conozca la existencia de más de una variable
dependiente sin poderse simplificar más el modelo.
o La regresión logística permite la elaboración de un análisis de regresión para estimar y
probar la influencia de una variable sobre otra, cuando la variable dependiente o de
respuesta es de tipo dicotómico.

• Métodos de Interdependencia:
o El análisis de los componentes principales procura determinar un sistema más pequeño de
variables que sinteticen el sistema original.
o El análisis clúster clasifica una muestra de entidades (individuos o variables) en un
número pequeño de grupos de forma que las observaciones pertenecientes a un grupo
sean muy similares entre sí y muy disimilares del resto. A diferencia del Análisis
discriminante se desconoce el número y la composición de dichos grupos.
En el apartado 4.2 de este manual ya se describió un método de dependencia, la regresión
lineal múltiple. A continuación, se describirán dos de los métodos de interdependencia usados con
más frecuencia.

5.1. ANALISIS DE LOS COMPONENTES PRINCIPALES

Uno de los aspectos más desafiantes de análisis de datos multivariante es la enorme


complejidad de la información. Si usted tiene un conjunto de datos con 100 variables, ¿cómo dar
sentido a todas las interrelaciones presentes?
Análisis de Componentes Principales (PCA) es una herramienta de gran alcance cuando se
tienen muchas variables y se quiere analizar que se puede explicar con ellas. La idea básica detrás
de PCA es que las variables en de todas las observaciones están correlacionadas entre sí, por lo que
el conjunto de datos contiene información redundante. PCA es útil para reducir el número de
variables, ya que con él podemos buscar "supervariables" que resumen la información de varias
variables, sin perder mucha de la información que los datos originales tienen. Por otra parte, también
podemos utilizar PCA para encontrar estructuras y relaciones en los datos, por ejemplo, los valores
atípicos.

Más matemáticamente, PCA utiliza una transformación lineal ortogonal para transformar los
datos de las variables, posiblemente correlacionados, a un nuevo sistema de coordenadas definido

M1T1. Estadística Página: 20 / 22


por un conjunto de variables no correlacionadas linealmente, llamados componentes principales. Así
que encuentra proyecciones lineales de los datos que conservan la información de sus datos tienen.

5.2. ANALISIS DE CONGLOMERADOS (CLUSTER)

Análisis de conglomerados (cluster) es una técnica para agrupar un conjunto de individuos u


objetos en grupos previamente desconocidos (llamados clusters). La tarea es asignar estos objetos a
grupos de manera que los objetos en el mismo grupo sean lo más similares (en algún sentido u otro)
entre sí que a los de otros grupos. En biología, el análisis de conglomerados se ha utilizado durante
décadas en el ámbito de la taxonomía donde los organismos se clasifican en grupos arbitrarios
basados en sus características. Estas características pueden ser binarias (es decir, las
características están presentes o ausentes), numéricas (cantidad de las características) o factorial
(por ejemplo, color de las características). Numéricamente se necesitan ciertas reglas para generar
los clusters:
• Una medida de la distancia entre los objetos o grupos, como la euclidea.
• Un método para determinar esta distancia entre clusters
• Un algoritmo para la agrupación

La medida más utilizada para medir la similitud entre los casos es la matriz de correlación
entre los n x n casos. Sin embargo, también existen muchos algoritmos que se basan en la
maximización de una propiedad estadística llamada verosimilitud.

Existen dos grandes técnicas para el agrupamiento de casos:


• Agrupamiento jerárquico, que puede ser aglomerativo o divisivo. Comienza con que cada
observación es un grupo de un solo elemento por sí mismo. A continuación, los grupos se
fusionan hasta que sólo un gran grupo permanece que contiene todas las observaciones. En
cada etapa los dos grupos más cercanos se combinan para formar un grupo más grande.
• Agrupamiento no jerárquico, en los que el número de grupos se determina de antemano y las
observaciones se van asignando a los grupos en función de su cercanía. Existen los métodos de
k-mean y k-medioid. La idea básica es asignar objetos al azar a grupos y luego reordenar esta
asignación hasta que encuentre la mejor solución. En un principio se define k centroides en un
sistema de coordenadas n-dimensional, una para cada grupo. El siguiente paso es tomar cada
punto que pertenece a un determinado conjunto de datos y asociarlo a su centroide más cercano.
Después de la terminación de esta primera etapa se calcula k nuevos centroides como
baricentros de las agrupaciones resultantes de la etapa anterior. Después tenemos estos nuevos
centroides k, una nueva asignación de los puntos de datos a la centroide ahora más cercana
siguiente. Esto se repite y los centroides k cambian su paso de localización a paso hasta que se
realicen más cambios.

6. CONCLUSIÓN

Existe una gran variedad de técnicas estadística de gran utilidad para el hidrólogo y en
general para todos aquellos que tienen que realizar campañas para la toma de muestras, analizar
datos, construir modelos, etc.
En general esos métodos se suelen clasificar en dos grandes categorías, aquellas que sirven
para describir los datos (estadística descriptiva) y aquellos que se emplean para inferir. En este
capítulo se ha realizado un recorrido por los más utilizados en el campo de la hidrología, poniéndose

M1T1. Estadística Página: 21 / 22


siempre ejemplos concretos de problemas en los que se debe aplicar cada una de las técnicas
descritas. Dichos ejemplos y las explicaciones que los acompañan pueden ser una buena guía si
tenemos que enfrentarnos a algún problema con nuestros datos hidrológicos y no sabemos muy bien
por dónde empezar. En muchos casos, la aplicación de estas u otras técnicas estadísticas a
problemas reales puede ser bastante compleja y una ayuda adicional la encontrarás en los ejemplos
prácticos que se describen en la guía de estudio.

7. REFERENCIAS BIBLIOGRÁFICAS
MILLARD; NEERCHAL. (2001) Environmental Statistics with S-plus. CRC PLUS
HAAN, CH. (1977) Statistical Methods in hydrology. IOWA STATE UNIVERSITY PRESS.
MCCUEN, R. (1993) Microcomputer applications in statistical hydrology. PRENTICE HALL.
RICHARD O.GILBERT (1987) Statistical Methods for Environmental Pollution Monitoring. VAN NOSTRAND
REINHOLD
BROWN, C.E. (1998) Applied Multivariate Statistics in Geohydrology and Relade Sciences. SPRINGER.
BIVAND, ROGER S., PEBESMA, EDZER J., GOMEZ-RUBIO, VIRGILIO. (2008). Applied Spatial Data Analysis
with R. SERIES: USE R.

M1T1. Estadística Página: 22 / 22

También podría gustarte