Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlación y
.2
regresron
7.1 Covarianza
La covarianza, es una medida que permite determinar que tan
independiente es una variable aleatoria de otra, es decir, el grado de
independencia de dos variables aleatorias.
Desarrollando:
cov(x,g= nfxr-xily- lt,Y+ ü,Fr)
= E(XY)- ltrE(x¡- lt,E(Y)+ lt,lt,
= E(xY)- ltylt,- lt,lty* lt,lty
=E(xy)- ltylt*
r
Correlación y regresión - página (268) Hidrología Estadística - página (269)
cov(x, Y) = E(xY) - E(Y).E(D ...(7.2) r¡rás utilizados son los coeficientes de correlación y determinación y
l¡r desviación típica de los residuos.
Casos:
1. Si X e I son independientes, se cumple que: 7.4 Análisis de correlación
E(xn = E Q).E(X)
y de (7 .2), se tiene: ('onsiste en el cálculo de una medida del grado de correlación y la
COV(X, Y) = E(XY) - E(XY) = 0 rcalización de pruebas, p&rá determinar si es aceptable el grado de
.'. Si X e y son independientes -> COV (X,I0 = 0 irsociación correlativa.
7.2 Correlación
7.5 Coeficiente de correlación
lil coeficientede correlación, es el estadístico que permite medir el
La correlación, se define como la asociación entre dos o más
¡1rado de asociación de dos variables linealmente relacionadas.
variables aleatorias, que explica sólo parcialmente la variación total
de una variable aleatoria, por la variación de otras variables l)ara el caso de una población se define como:
aleatorias involucradas en la ecuación de asociación.
COV(x,y) O, nltx-tt*)(y-tD)
p(*,v) = ..(7.3)
La parte de la variación total que queda sin explicar, o sea, la oro,
variación no explicada, se debe a errores o a otras variables (VARxVARy)z lrr* - p)2 EO - F;z1,z
aleatorias, que no han sido tomadas en cuenta en la correlación.
l)ara una muestra:
sry »(, -;Xy - y) Zry - "iy ... (7.4)
S,S, rS,S, nS*S,
7.3 Medidas de correlación
donde:
Se necesita un estadístico para medir el
grado de asociación
correlativa entre las variables bajo consideración. Los estadísticos ; Sr=
»6-i'
Correlación y regresión - página (270) Hidrología Estadística - págtna (271)
; y= 2,
2,* Pasos para el análisis de regresión
^- n n
también:
I. Selección de una función de relación correlativa, simple o
múltiple,lineal o no lineal.
"2*y-}*Zy ...(7.s) y =flx)
!=atbx
!=ab*
Valores de r entre -1 y 1 describen los varios grados de asociación. Y = ax'b
etc
2. Estimación de los parámetros que miden el grado de asociación
7.6 Coeficiente de determinación correlativa
r2
Es la proporción o porcentaje, de la variación total de la variable r
dependiente y, que es explicada por la variable independiente r, por
lo cual, es un criterio para explicar la importancia de la variable 3. Prueba de significación de los estadísticos que miden la
independiente dentro del modelo. asociación correlativa, para lo cual se aplica la prueba f.
rr/2 = 0.025
),L
x=- nn ; y=-
.5. Determinar la significación de los parámetros de la ecuación de
regresión, encontrando los límites de confianza de su variación
Así: (se usa el análisis de varianza).
para n=15 -) v=15-2=13
a '7.8 Regresión lineal simple
para957o de probabilidad ->
i = o'ozs
En hidrología el modelo más simple y común, está basado en la
entonces, de la tabla ,4.5 del apéndice: ) t¡ = 2J60
suposición de que dos variables se relacionan en forma lineal.
3.4 Criterios de decisión: Como ejemplo se puede mencionar:
. Si lt"l< h, se acepta la hipótesis nula, por lo que p =O,y por lo . Caudales y precipitación de una misma cuenca
tanto no hay correlación significativa.
. Precipitaciín de una estación, con precipitación de otra estación
. Si lr"l , /¡, se rechaza Ia hipótesis nula, por lo que p I 0, . Caudal de una estación con caudal de otra estación
indicándose que es significativo y por lo tanto existe correlación
. Precipitación con la altitud de una cuenca
entre las variables.
Este hecho, permite correlacionar estas variables para completar
datos o extender un registro.
4. Estimación de los parámetros de la ecuación o función de
regresión
Por ejemplo para la ecuación de regresión lineal: Ecuación de regresión
!=a+bx
Los parámetros ¿ y b,lutllizando mínimos cuadrados son: La ecuación general de la ecuación de regresión lineal es:
!= a*bx ...(7.8)
a
as
donde:
x =variable independiente, variable conocida ===0
da
ó ff=-rá(r,-a-bx,)=s ... (7.10)
s =2r,, =26,-o-b*,)'
j=l
...(7.e) Ejemplo 7.1:
3. Hacer que la suma de cuadrados de los errores sea mínimo: En una cuenca, como se muestra en la figura 7.1 se tienen dos
Para que S sea mínimo, se requiere que la derivada parcial de S de la estaciones de aforo A y B, en las que se midieron los caudales
3/s
ecuación (7.9), con respecto a cada parámetro sea igual a cero, es medios mensuales, en n para el año 1995, los que se muestran en
decir: la tabla 7.1. Considerando que los caudales de la estación A, son las
Correlación y regresión - pítgina (276) Hidrología Estadística - página (277)
J, Cálculo de r:
l)c la ecuación (7.5), se tiene:
"Z*y- Ir),
,Z*' -(»,)')( nDy' -()r)')
A
Figura 7.1. Estaciones de aforo A y B de una cuenca
§ttst i tuyendo valores, resulta:
Correlación y regresión - página (278) Hidrología Estadística - página (279)
- 8222x3384
12x4151378 5. Cálculo de los parámetros a y b:
' De la ecuació¡ (7.14), se tiene:
,(-z» 883626 -Bezz'W"n654io - z§+'
I_
2l'993,288.00 " - EvE*'-ErZ*
nE*' -(»')'
22',28r,026.59
en la estación B.
se tiene: h=2.228 Sustituyendo valores en la ecuación (7.18), resulta:
y = -13.459O + O.4312 x 800
4.4 Criterio de decisión:
y = 331.5010 m3/s
Como: I r. I = lg.47l3 ) t¡ = 2.228 se rechaza la hipótesis nula,
siendo r + 0
.'. existe correlación entre las variables x e y.
a
Proceso computacional
7.9 Regresión no lineal simple
Para los datos indicados, utilizando la opción Regresión/Regresión
Existen varias relaciones no lineales, que con un artificio adecuado
simple de HidroEsta, se obtienen los resultados que se muestran en
lafigura7.2. ¡rueden reducirse a relaciones lineales, dentro de las cuales se
pueden mencionar:
1
Correlación Ecuación y= ... (7.te)
a+bx
Lineal Y = 13.4590'lü7 + 0.4312221 .H 0.38703 0.37434
Exponencial Y = 77.s880355. [ 1.001 3237 J ^X 4
0.9ü1 0.81 253 t=alb 1 (inversa) ... (7.20)
Potencial Y = 0.1359426 . X ^ f].107t57 0.s653 11.33181 x
!=ab^(exponencial) ... (7.2t)
Figura. 7.2 Regresión entre los caudales de las estaciones de aforo
Ay B deunacuenca y=axb (potencial) .." (1.22)
Ecuación Line¡l
iniciales ay b.
4. Utllizar la ecuación siempre y cuando exista correlación
i
',1_"ro'*'
dey: jtBi
Vator
i adecuada entre las variables.
lmt ;
1
-=a+bx
¿ x 1
v
w w= -v
1
haciendo: -v = w, se tiene la ecuación linealizada:
w= a+bx ... (7.24)
1
x y w=lny
De la ecuaciín (7 .20), haciendo
; = *, se tiene:
!=a*bw ... (7.2s)
x v w =lnv
Para aplicar el método de mínimos cuadrados y estimar ¿ Yó,se
trabajan con las variables:
1
w=-x a !
Correlación y regresión - página (284)
Hidrología Estadística - página (285)
x v z=lnx w =lnv
Correlación y regtesión - página (286) Hidrología Estadística - página (287)
HidroEsta, permite resolver el problema del ajuste de pares de L*ry = aoExr+ orl*', * or)*r*r* ar)r,rr*.... .+a.\xrx*
valores experimentales a:
. Una línea recta L * ry = a,Z x, + arl x rx, + or\ *l + arl xrx 3+.....+a nE *r* ^
. Una curva exponencial
' Una curva poteucial E *. y = a,E x ^ + a rl rx. + r\ x, * r\ * r* *'.
x a x
^
a
^*.....+
o
^\
(7
Para cualquier tipo de curva, la aplicación permite calcular: "' '33)
. donde: n = número de grupos de elementos de la muestra.
Los parámetros a y ó
. Loscoeficientet,y,2 [,a solución del sistema (7 .33) proporcionan los valores as, a1, o.2, . .
variabl e independiente
El número de ecuaciones normales, deben ser tantas como
incógnitas se tienen, a fin de que se tenga un sistema resoluble y así
oncontrar: ao, al, a2, - .,, am
7.L0 Ecuación de regresión lineal múltiple
Hl conjunto de ecuaciones normales (7.33) son fáciles de recordar,
Esta técnica de análisis, se utiliza cuando la variable dependiente y, observar que la primera se obtiene aplicando la sumatoria a ambos
es función de dos o más variables independientes ,r1, x2, x3,. . ., rm, rniembros de la ecuación (7.32), es decir:
siendo el modelo lineal:
!=ao* a1x1*a2x2* a34 +... + an#m ...(7.32) L, =E@" + atxr + azxz + a3x3 +..... + a*x^)
E, = aon+ or2*, + ar\x, + ar\xr+..... + o-2*^
donde:
m = número de variables independientes La segunda se obtiene multiplicando ambos miembros de la
ao, a\, a2, . . , am= parámetlos a estimar
p = m+ 1 = número de parámetros ccuación (7.32) por .r¡ y luego aplicando la sumatoria, es decir:
Z*ry =Z*r(ao + arx, + azx2 + a3x3 +..... + a^x*)
Estimación de parámetros
E*ry = o"Z*, + ar\xl + ar)xrx, * arZ*r*, +..... + a^\xrx^
Extendiendo el método de mínimos cuadrados, para el caso de una
Análogamente, la tercara se obtiene multiplicando ambos miembros
regresión lineal múltiple, las ecuaciones normales que se obtienen
de la ecuación (7.32) por x2, ! luego aplicando la sumatoria, es
son:
decir:
Correlación y regresión - página (288) Hidrología Estadística - página (289)
E*r, --Err(ao + arx, + a2xz + a3x3+.....+ a^x^) La ecuación (7.34) es muy tediosa de calcular, pü [o que los
estadísticos han derivado una fórmula más corta de calcular por el
Z*r, = oo2*, + ar\x, x2 + azZ*3 * ar\*rx, + ..... + a*\*rx* método computacional, la cual se muestra en la ecuación (7.35).
Error estándar del estimado para regresión múttiple Coeficiente de determinación múltiple
(Se)
Representa la proporción de la variación total de y que es
explicada por las variables involucradas en la ecuación de regresión
Es la medida de dispersión que se calcula con la siguiente ecuación:
múltiple, se puede calcular a partir de la ecuación (7-36) o (7.37).
R'^= 1---^
Sez
Se= ... (7.34) ... (7.36)
S'Y
donde:
R2=
o,2 y * o r\ *,y + a r\ x ry + a r\ x ry +......+ a
^2 ^, -
* nt'
.S¿ = error estándar del estimado
y = valores muestrales (experimentales) de la variable 2v'-"v'
dependiente ... (7.37)
donde:
9 = oo* ay x1 * a2x2+ . . . + amxm
= valores estimados de la variable dependiente con la
R2 = coeficiente de determinación
ecuación de regresión Se = effor estándar del estimado, calculado con las
e = ! - Í = e..o. entre el valor observado y estimado de la ecuaciones (7 .34) o (7.35)
variable dependiente
S'y = vaianza de la variable dependientey
n = número de grupos de la muestra s'y=*(»t, -(t)')) =*(» y'-n(y)') . rz.rsl
p = m+l = número de parámetros a estimar a partir de la
muestra
p grados
, =:)r= media de la variable dependiente
n - = de libertad
n = número de grupos de la muestra
r
Correlación y regresión - página (290) Hidrología Estadística - página (291)
Coeficiente de correlación múltiple (r, Calcular los coeficientes de determinación y correlación múltiple
7. Estimar el valor de Q, si A = 4 km2 e I = 1.5 cmt}4h
El coeficiente de correlación múltiple, se puede calcular a partir de
las ecuaciones (7.39) ó (1.40). 'l'rrtrla 7.3 Valores de A, I y Qpara 14 subcuencas
... (7.39)
A I o
Estación (xm') (cml24 horas) (m%)
I
1.250 1.70 15.50
oo}y + orl*ry + ar)xr! t asE*rr*......+a^lx,y - n ' 1
1.2. En la tabla 1.4 se encuentra tabulado los valores de las )s, que 1.4 Multiplicando la ecuación (7.43) por -34.3 y la ecuación
reemplazado en el conjunto de ecuaciones (7.42), resulta: 11.45)
304.12 = 14 as + 21.332 q + 34.3 a2 ... (7.43)
1465.8929 = 21.332 ao + 108.7412 a1+ 43.3419 az ... (7.44)
627.8 = 34.3 as+ 43.3419 + 86.99 az q ... (7.4s)
Tabla 7.4 Yalores para el cáIculo de los parámetros -1642.116 = - l24.9Ota1 + 41.37 a2 Q.47)
A I o AxI AxQ IxQ A" lz Q, 1..5. Multiplicando la ecuación (7.46) por 124.901 y la ecuación
(r) (2) (3) (4) (s) (6) (7\ (8)
(7.47) por 1067.322576, se obtiene:
l9)
r.250 t.7 15.50 2.t250 l 9.3750 26.3500 t.5625 2.8900 240.2500
0.87 r 2.t 850 .829 7.4035 17.8500 0.7586 4.4lOO
t
r 1 72.2500
I
5.690 t9 85.00 10.81 10 483.6.500 161 500 32.f76r 3.6100 7225.OOOO t t.46) x 124.901: 1752987.129 = 133309.6$71 a1- 15600.2598 a2
8.210 19 105.00 15.7130 868.3500 199.500 68.3929
t.620 2t 24.80 3 4020 40.1760 s2.0800 2.6244
3.6100
4.4100
r 1025.000
615.0400
- 175266'7.479 = -r33309.f571
I
0.1 75 3.80 0.4200 0.6650 9. l 200 0.0306 5.7600 14.4400
r t.47) xr067.322576: ar + 44155 .t3497 u
0.148 32 1;76 0.4'736 0.2605 s.6320 0.02t9 10.240 3.0976
1.400 27 18.00 3.7800 25.2000 48 6000 1.9600 7.2900 324.0000 319.65 = 28554.87517a2
0.291 29 8.75 0.86 r3 2.s987 25.3750 0.0882 8.4100 76.5625 rk: donde:
0 322 z9 8.25 0.9338 2.6565 23.92s0 0.1037 8.4100 68 062s
0.178 28 3.56 0.4984 0.6337
az= 0.01LI94 ... (7.48)
9.9680 0.031 7 7.8400 t2.6736
0.148 27 190 0.3996 o 2812 s.1300 o.0219 7.2900 3.6100
0.872 21 16.5 1.83 l2 l 4.3880 34.6s00 0.'7604 4.4100 272.2500 I .(r. Sustituyendo (7.48) en (7.46), se obtiene:
0.091 29 280 0.2639 0.2548 8.1200 0.0083 8.4100 '7.8400
21.332 34.3 304.12 43.3419 1465-8929 627.800 108.7412 86.990 19960.O742
14035.01276 = 1067.322516 a1- 124901 x 0.011194
tlc donde:
1.3. Multiplicando la ecuación (7.43) por -21.332 y la ecuación at = 13.151048 ... (7.49)
(7 .44) por 14, se obtiene:
1.7. Sustituyendo (7.48) y Q.a9) en (7.43), se obtiene:
304.12 = 14 ao + 21.332 x 13.151048 + 34.3 x 0.011194
rlc: donde:
ao= 1.656991 ... (7.s0)
R'^= 1
Sez
------
Sí,
tklnde:
Se2 = 3.9439072 = 15 .5544
S'a= lo2l -209152
» 171.0984
4. De la ecuación (7.34), se tiene: lucgo:
J¿=-
»7 ^
R-=l
155544
1027.209152
\n- p R2 = 0.984858
Correlación y regresión - página (296)
Hidrología Estadística - página (297)
L -
HidroEsta permite resolver el problema de la ecuación de regresión I
I
Para los datos indicados, utilizando la opción Regresión/Regresión l,u forma general de una ecuación de regresión no iineal múltiple es:
múltiple 2 var. independientes de HidroEsta, se obtienen los ! = aoxrot xro'*r" ..... .,, (7.52)
resultados que se muestran en la figura 7.4. ll misma que es posible transformar con un adecuado artificio, en
u¡la ecuación de regresión lineal múltiple, de la siguiente forma:
E cuEciúrr ln H^2
l. Tomando Iz a ambos miembros de Ia ecuación (7.52), se tiene:
Y = 1.ris7ll +13.151 U i(l
+0 ü112 i42 0.ss3E 0.9872 3.S43S
ln y - lnao + arlnx, + arlnx, I arlnxr+. . .
y= 11 3383X1^trt t2rl6l y2^t0 38751
[ 9688 0 9388 4.7153
se tiene:
! = ao + afl + arx' + arx3 +....+a^x^ ... (7.s4)
z = a'o + atwt + azwz + a3w3 +.... ... (7.s3) l\rra el ajuste de los pares de valores, se puede utilizar la
tnetodología descrita para el caso de una ecuación de regresión
La ecuación (7.53) es una ecuación de regresión lineal múltiple, li¡real múltiple, siendo las ecuaciones normales:
similar a la de la ecuación (7.32).
Por ejemplo, en hidrología existe una fórmula utilizada para el X, = aon+at)r* orZ*' +or\*'+....+a^x^
cálculo de la intensidad máxima: E*, = ooZ* + or\*' + ar\x3 + ar\xa +....+a^x**l
, KT' E*'y = aoEx' + ar\x' + ar\xo + or\*t +....+a^x^*2
max
Du
cuyos parámetros K, a y á se pueden determinar a partir de una
correlación múltiple entre las variables, donde:
Z- período de retorno L*^y = aoEx^ + ar\x^*' + ar\x^*' *or}*^*t+....+a^x2^
D = duración de la lluvia ... (7.ss)
I máx = intensidad máxima
HidroEsta, permite resolver el problema de la ecuación de regresión I De una prueba de infiltración, con cilindros infiltrómetros, se
potencial múltiple, el programa permite calcular: obtuviel ln los ssl
leron n de datos:
. Parámetros ao, ab a2,.... T 4
(cm)
T
(min)
De
lmin) lcm)
. Coeficiente de determinación múltiple: 5 1.0 75 3.8
. Coeficiente de correlación múltiple: R R2 10 1.2 200 8.0
. Error estándar estimado: .§¿ 15 1.4 255 9.6
20 1.6 300 11.0
25 1.8 450 14.5
Correlación y regresión - página (300) Hidrología Estadística - página (301)
3.2. Encontrar la intensidad máxima I, para un período de retorno .5. La tabla 7.9 muestra los valores correspondientes a 3 variables
T = l0 años y una duración D = 45 min. X], X2, Y.
Tabla 7.10 Datos de carga h, en cm, y caudal e, en lps Considerando los modelos de regresión lineal múltiple y
potencial múltiple (la que mejor se ajuste), se desea completar
Carga h Caudal Q los datos faltantes para la estación D, para los años 1994 y 1995
(cm) (lps)
a partir de los datos de las estaciones A, B y C.
0.19 0.037974
1.36 0.057915
2.O2 0.113981
tt. En una área sembrada de banano se tiene instalado un sistema de
2.15 0.115118
drenaje subterráneo. En una sección de ésta se hicieron las
3.15 0.292397 mediciones de los parámetros h (carga en el centro del dren) y Q
(caudal descargado por el dren), cuyos resultados se muestran en
7. se desea conocer la relación existente entre los caudares latabla7.l2.
máximos de la estación D en función de sus afluentes principales Se sabe que las variables h y Q se relacionan con la siguiente
A, B y C.Para obtener la relación deseada, se eligieron sobre las ecuación:
corrientes afectadas, las
estaciones hidrométricas más Q=ah+bh2
representativas, de las cuales para las 4 estaciones se tienen
registros de caudales desde 1996 al 2003,1os mismos que se
. Determinar los parámetros de la ecuación
muestran en la tablr 7 .l l.
, Determinar el valor de Q, si h = 0.82
Año Qa Qb Qc od
tm3lst tm3lsl lm3lst fm3lsl h o
1 994 325 555 777
0.16 4.3
1995 600 1209 931
0.51 17.28
1 996 290 828 853 3295
0.60 22.68
1 997 157 642 739 1735
0.63 25.20
1 998 287 774 1 800 4037
o.70 28.08
1 999 225 604 748 2038 o.75 31.32
2000 327 856 793 2621 0.80 34.20
2001 341 522 1778 541 0 0.85 37.44
2002 625 1118 2245 5233 0.90 41.04
2003 670 1272 1145 2696