Está en la página 1de 25

Decimos que dos variables, X e Y, están correlacionadas cuando

hay una relación cuantitativa entre ellas. X suele ser la variable


independiente e Y la dependiente (Y “depende” de X).
• Altura y peso de niños. Peso = f(Altura)
• Velocidad máxima que alcanza un coche y potencia de su motor. Velocidad = f(Potencia)
• Presupuesto para adquisiciones y número de libros que puede adquirir una biblioteca.
Libros = f(Presupuesto)
• Si se hace una lista ordenando las palabras según su frecuencia de aparición en un
texto extenso, se encuentra que hay una correlación entre frecuencia y posición o rango
en esa lista. Frecuencia = f(Rango) =>(Ley de Zipf)

La relación puede ser claramente causal o no.


• La potencia del motor de un coche es la causa de que alcance una mayor velocidad, así como
un mayor presupuesto el que se puedan comprar más libros. (X es la “causa” de Y)
• En cambio, el rango de una distribución tipo Zipf no es la causa de la frecuencia; en todo
caso, la frecuencia es la causa del rango. (Y es la “causa” de X)
• La relación altura – peso tiene parte de causalidad, pero también existen otros factores. (X
y otros factores son la causa de Y)

Cuando se hacen correlaciones hay que analizar bien el


fenómeno para no caer en errores
Hay que evitar las denominadas correlaciones espúreas o
espurias, es decir, que llevan a conclusiones erróneas.
Ocurren cuando dos variables, X e Y, son realmente
independientes entre sí, pero dependientes ambas de una
misma causa común, Z.
X Y

Z
Ejemplo de correlación espúrea: Cierto biólogo inglés publicó un estudio en el
que se comprueba que en los pueblos y ciudades con más cigüeñas en los
campanarios, X, nacen más niños, Y. Llegó a la conclusión de que “los niños los
trae la cigüeña”.
Lo cierto es que tanto el número de cigüeñas, X, como el de niños, Y, dependen
de la causa común, Z, que es el tamaño del pueblo o ciudad. En las poblaciones
grandes hay siempre más cigüeñas y más niños. Tanto cigüeñas como niños
están correlacionados con el tamaño de la población, pero no entre ellos
mismos.
Sea un conjunto de pares de valores de las variables X e Y. Si los
representamos en un diagrama de dispersión obtendremos una “nube de
puntos” que nos dará una idea gráfica de la posible correlación entre ambas
variables.

Y Y Y

X X X

No hay correlación Correlación positiva Correlación negativa


Modelo Lineal

Correlación lineal positiva Correlación lineal negativa


• Potencial
• Logarítmica
• Otros tipos

• Potencial
• Potencial inversa

• Exponencial • Exponencial
positiva negativa
(c) Rosario Ruiz Baños. Departamento
de Biblioteconomía y Documentación. • Otros tipos • Otros tipos
Universidad de Granada (España)
Ecuación Explícita de la Recta

y y = a + bx
Los valores de “y” se
Y calculan multiplicando
“x” por la pendiente, b, y
X Y
b  sumándole la ordenada
X en el origen, a

a
x
a .- Ordenada en el orígen. Punto de corte con el eje de ordenadas o “eje y”.
En este punto x está en el “origen” es decir x=0
b .- Pendiente. Grado de inclinación de la recta. Si es
positiva, la recta es creciente. Si es negativa es decreciente.
Es el cociente entre el incremento que se produce en la
variable dependiente, Y, cuando se incrementa la variable
independiente, X. (c) Rosario Ruiz Baños. Departamento
de Biblioteconomía y Documentación.
Universidad de Granada (España)
10 9
9 8
8
7 7
6 6
5 5
4 4
y 3 y 3
2
1 2
0 1
-1 0
-3 -2 -1-2 0 1 2 3 4 5
-5 -4 -3 -2 -1
-1 0 1 2 3 4 5 6 7
-3 -2
-4 -3
x x

y  1 2 x y  4 x
• Recta decreciente, ya que la
• Recta creciente, ya que la
pendiente es negativa
pendiente es positiva
• La recta decrece una unidad de y
• La recta crece dos unidades de y
por cada unidad de x, es decir b=-1
por cada unidad de x, es decir b=2
• Cuando x=0, y=4. La ordenada en
• Cuando x=0, y=1. La ordenada en
el origen, a, vale 4
el origen, a, vale 1
• La recta de regresión es la que se obtiene a partir de la nube de puntos y
es la que representa mejor la distribución de esos puntos como modelo
lineal.
• Se suele emplear el método de los Mínimos Cuadrados, que consiste en
encontrar aquella recta tal que la suma de los cuadrados de las distancias,
di, de los puntos a la recta sea la mínima posible.

y d10 d i
2
 d12  d 22  ...  di2  ...  d n2  Mínimo
• Bajo esta condición se puede
d8 d9 demostrar que la pendiente, b, y la
ordenada en el origen, a, se determinan
d5
mediante:
d6
d4 x
n xi yi   xi  yi
b
d3

n xi2   xi 
d2 2
d1

a
 y  b x
i i

n
x y 8

0 2 7 y =x+2
6
1 3
5
2 4
4
3 5

Y
3
2
1
0
n xi yi   xi  yi -4 -3 -2 -1 -1 0 1 2 3 4 5 6
b
n xi2   xi 
2
-2
X

a
 y  b x
i i

n
Recordemos que...

Media aritmética: Suma de los valores que toma una variable dividida entre el
número total, n, de valores sumados.

x
 x i

n
Varianza: Es una medida de lo que se dispersan los valores de una muestra
respecto de su media. Se determina con cualquiera de las formulas equivalentes
siguientes:
 x  x x
2 2
2
Vx  S 2
x  i
o bien mediante Vx  S 2
x  i
x
n n
La varianza, V, es también el cuadrado de la desviación típica, S.

Cuando se trata de una distribución bidimensional...

Covarianza: Es una medida de lo que se dispersan los valores de una muestra


bidimensional tanto del valor medio de la x como del valor medio de la y. Se
determina mediante la expresión:

Vxy  S xy 
 x  x y  y 
i i
o bien mediante Vxy  S xy 
x y i i
 xy
n n
Bondad de los ajustes

• El coeficiente de correlación de Pearson, r, nos permite saber si el ajuste de


la nube de puntos a la recta de regresión obtenida es satisfactorio.
• Se define como el cociente entre la covarianza y el producto de las
desviaciones típicas (raiz cuadrada de las varianzas)

Vxy S xy S xy
r  
VxVy 2
S S
x
2
y
SxS y

• Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar


mediante cualquiera de las dos expresiones siguientes:

x y i i
x y
n n xi yi   xi  yi
r r
  xi2

 n  x
2   yi

 n
2

 y
2


n x   x  n y
2
i i
2 2
i   yi 
2

  
• El coeficiente de correlación, r, presenta valores entre –1 y +1.
• Cuando r es próximo a 0, no hay correlación lineal entre las variables. La
nube de puntos está muy dispersa o bien no forma una línea recta. No se
puede trazar una recta de regresión.
• Cuando r es cercano a +1, hay una buena correlación positiva entre las
variables según un modelo lineal y la recta de regresión que se determine
tendrá pendiente positiva, será creciente.
• Cuando r es cercano a -1, hay una buena correlación negativa entre las
variables según un modelo lineal y la recta de regresión que se determine
tendrá pendiente negativa: es decreciente.

No hay Hay correlación Correlación lineal Correlación lineal


correlación no lineal positiva negativa
r 0 r 0 r  1 r  1
• Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el
Coeficiente de Determinación, R2, que es el Coeficiente de Correlación elevado
al cuadrado.
• Se determina mediante cualquiera de las dos expresiones siguientes:

  xi yi
2

 
 n  x y n x y   x  y  2
 
R2  
n x   x  n y   y  
i i i i
R2
  xi2 2   yi 2
2 2 2 2 2

  x   y  i i i i
 n  n 
  

• Su valor oscila entre 0 y +1.


• Cuando hay una buena correlación lineal, R2 es muy cercano a +1.
Normalmente se acepta para valores de R2 >= 0’99.
• Cuando no hay correlación o bien ésta no es lineal, R2 es bajo e incluso
cercano a cero
5
x y
1 -1,1 4 y = 1,13x - 2,2
R2 = 0,9902
2 0,2 3
3 1
2
4 2,1
1

Y
0
n xi yi   xi  yi -2 -1 0 1 2 3 4 5 6 7
b -1
n xi2   xi 
2
-2

a
 y  b x
i i
-3

n -4
X

n x y   x  y 
2


n x   x  n y   y  
i i i i
R2 2 2 2 2
i i i i
Correlación Potencia - Velocidad

Conclusiones:
250 • Potencia y velocidad son dos variables
Velocidad máxima, V (Km/h)

correlacionadas según un modelo lineal, cuya


ecuación es:
1.6i 16V VTS V = 0’75 P + 117 R2 = 0’9915
200 1.6i VTS
1,4i SX • El ajuste es excelente.

1.1i SX • La correlación es positiva, ya que la


150 1.5D SX Furio pendiente también lo es.
• Por cada CV de potencia, la velocidad
máxima se incrementa en 0’75 Km/h
100 y = 0,7468x + 116,91 • Es posible predecir qué velocidad se podría
alcanzar a partir de una potencia
R2 = 0,9915 determinada o bien a la inversa, determinar
50 qué potencia se necesita para alcanzar una
velocidad.
• Estas predicciones se pueden realizar sin
restricciones dentro del rango analizado
0 (Interpolación). En cambio, fuera del rango
0 50 100 150 sólo son posibles si no nos alejamos
excesivamente de él (Extrapolación)
Potencia, P (CV)
Ecuación: V  0'75P  117 R 2  0'991 (c) Rosario Ruiz Baños. Departamento
de Biblioteconomía y Documentación.
Universidad de Granada (España)

Modelo Citroën Saxo P V V (Km/h) % Error


(CV) (Km/h) calculada

1.5D SX Furio 58 158 58x0’75+117 = (160-158)/158*100


160 = 1’3%

1.1i SX 60 162 162 0%

1.4i SX 75 175 173 -1’1%

1.6i VTS 100 193 192 -0.5%

1.6i 16V VTS 120 205 207 1%

“Nuevo Modelo Intermedio” 90 ------ 184 Este caso es una


interpolación y como el
ajuste es muy bueno, el
resultado es correcto.

“Nuevo Modelo muy Potente” 150 ------ 229 Resultado razonable. La


extrapolación es también
razonable.

“Nuevo Modelo poco Potente” 10 ------ 124 ¿? Demasiada velocidad


para tan poca potencia.
Se ha hecho una
extrapolación excesiva
Universidades Alumnos Profesores
Aragón 36154 2043
Asturias 34441 1442
Baleares 9519 385
Cantabria 11962 737
Castilla la Mancha 15123 787
Castilla León 74272 4030
Extremadura 17678 865
Madrid 214402 10971
Murcia 26407 1248

1. Trazar la gráfica de la distribución 4. ¿Qué Universidad tiene la peor ratio y cuántos


profesores necesitaría para equilibrarla?
2. Calcular parámetros de la distribución
5. Calcular los valores teóricos de profesores de
3. ¿ Cuál es la Universidad con mejor proporción
la Universidad de Granada si ésta tenía 55123
profesor/alumno?
alumnos en el curso 1994-95.
6. Calcular los valores de la FBD si ésta tenía
1100 alumnos
R2=0.998 b=0.0515 a=-17
14000 3000

12000
2500
10000
2000
Profesores

Profesores
8000
1500
6000
1000
4000

2000 500

0 0
0 100000 200000 300000 0 10000 20000 30000 40000 50000
Alumnos Alumnos
Antes de proceder a la regresión, hay que transformar la ecuación no lineal,
y = f(x), en otra del tipo Y = A + BX, donde Y, X, A y B son funciones de y, x,
a y b respectivamente.

Modelo Potencial Exponencial Logarítmico

Ecuación y  ax b y  aebx y  a  b log x


Ecuación
log y  log a  b log x ln y  ln a  bx ----------
Linealizada
Log y Ln y y

Gráfica
Log x x Log x

Y Log y Ln y y

X Log x x Log x

A Log a Ln a a

B b b b

a 10 A eA A

b B B B
(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)
Una de las principales aportaciones de Galileo Galilei (1564-
1642), fue encontrar la relación entre el tiempo o periodo de
oscilación de un péndulo y su longitud. Esto permitió construir
por primera vez en la historia relojes de gran precisión basados
en péndulos. Dicen que la idea de correlacionar estas variables
se le ocurrió en la iglesia de su ciudad natal, Pisa, mientras,
absorto, observaba cómo oscilaban las lámparas del techo...

Estos datos podrían corresponder a


un hipotético experimento realizado
por Galileo...
El Péndulo de Galileo

L(m) T(s) 7,0

Tiempo de oscilación, T(s)


6,0
0,1 0,6 5,0

0,3 1,1 4,0

3,0
1,0 2,1 2,0

3,0 3,4 1,0

0,0
6,0 5,0 0,0 2,0 4,0 6,0 8,0 10,0
Longitud del péndulo, L(m)
9,0 6,0
Para encontrar el modelo que relaciona periodo de oscilación, T, con la longitud del
péndulo, L, Galileo bien pudo hacer las siguientes deducciones...

7,0
10,0
6,0

5,0

4,0

log T
T

3,0 1,0

2,0

1,0
No es lineal No es exponencial
0,0
0,1
0,0 2,0 4,0 6,0 8,0 10,0
0,0 2,0 4,0 6,0 8,0 10,0

L L

7,0 10,0

Tampoco es logarítmica
6,0

5,0
log T

4,0
T

1,0
3,0

2,0
Es potencial
1,0

0,0 0,1
0,1 1,0 10,0 0,1 1,0 10,0

log L log L

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)
T  aL b

y  ax b
Como vamos a ajustar a un modelo potencial, hacemos el cambio de variables: X = log x e Y = log y.
Por lo demás se procede exactamente igual a una regresión lineal, ajustando a una expresión del tipo
Y = A + BX. Por último, de B y A calculados se despejan b y a respectivamente.

L(m) T(s) X = log x Y = log y


x y X Y XY X^2 Y^2
0,1 0,6 -1 -0,22185 0,221849 1 0,049217
0,3 1,1 -0,52288 0,041393 -0,02164 0,273402182 0,001713
1,0 2,1 0 0,322219 0 0 0,103825
3,0 3,4 0,477121 0,531479 0,25358 0,227644692 0,28247
6,0 5,0 0,778151 0,69897 0,543904 0,605519368 0,488559
9,0 6,0 0,954243 0,778151 0,742545 0,910578767 0,605519
Sumas 0,686636 2,150363 1,740235 3,017145009 1,531304
n= 6

n xi yi   xi  yi 6 1,740235  0,686636  2,150363


B   0,5085 b  B  0,5085
n x   xi  6  3.01745009  (0,686636) 2
2 2
i

A
 y  b x
i i

2,150363  0,5085  0,686636
 0,3002 a  10 A  100,3002  1,9962
n 6

n x y   x  y  2


n x   x  n y   y    0.9988
i i i i
R2 2 2 2 2
i i i i
(c) Rosario Ruiz Baños. Departamento
de Biblioteconomía y Documentación.
Universidad de Granada (España)

10,0 7,0

6,0

5,0
log T

4,0

T
1,0
3,0
0,5085
y = 1,9962x y = 1,9962x 0,5085
2,0
R2 = 0,9988 R2 = 0,9988
1,0

0,1 0,0
0,1 1,0 10,0 0,0 2,0 4,0 6,0 8,0 10,0

log L L

Se deduce que... Generalizando...

1
T k L
T  2L  2L  2 L0 '5 2
El periodo de oscilación de un péndulo es
proporcional a la raíz cuadrada de su longitud
A partir de los datos adjuntos en los que se Edad, t (años) %C14 residual
dan valores de carbono 14 residual
respecto del tiempo transcurrido, 0 100
determina:
1000 92
a) Parámetros de la distribución de
%C14-Tiempo, sabiendo que es 5000 53
exponencial negativa 10000 30
b) Cuánto C14 quedará en el hueso que 20000 120 9,3
llevo en la mano si ambos tenemos
100
12.000 años.

%C14 residual
80

60
1000
40
Escala logarítmica

20
%C14 residual

100
0
0 5000 10000 15000 20000 25000

10 Edad, t (años)

1
0 5000 10000 15000 20000 25000
Edad, t (años)
y  ae bx
%C14  ae bt
Se observa que la nube de
puntos se alinea cuando se a  100
toman logaritmos en la “y”. Por Solución:
tanto, el modelo es exponencial, b  1,194 10  4
y como decrece, es exponencial R 2  0,9992
negativo.
%C 14  24% de C14 residual
Como se está ajustando un MODELO EXPONENCIAL hacemos el cambio de variable Y =LN(y),
quedando x igual (X = x). En este caso A = Ln(a) y B = b.

Edad, t (años) %C14 residual X=x Y=Ln(y)


x y X Y XY X^2 Y^2
0 100 0 4,60517 0 0 21,20759
1000 92 1,0E+03 4,521789 4521,789 1,0E+06 20,44657
5000 53 5,0E+03 3,970292 19851,46 2,5E+07 15,76322
10000 30 1,0E+04 3,401197 34011,97 1,0E+08 11,56814
20000 9,3 2,0E+04 2,230014 44600,29 4,0E+08 4,972964
Sumas: 3,6E+04 18,72846 102985,5 5,260E+08 73,95849
n= 5,0

n xi yi   xi  yi 5 102985,5  3,6 104 18,72846


B   1,194 104 b  B  1,194 104
n xi2   xi  5  5,26 10  (3,6 10 )
2 8 4 2

A
 y  b x
i i

18,72846  (1,194 104  3,6 104 )
 4,58933 a  e A  e4,58933  98,4  100
n 5
La Bibliometría está fundamentada en un conjunto de “leyes empíricas”. Estas leyes se han
establecido gracias a estudios cuantitativos en los que interviene el recuento de nº de artículos, nº
de revistas, nº de autores, etcétera. Las distribuciones que correlacionan estas variables se ajustan
mediante regresión lineal por el método de los mínimos cuadrados.
Las principales leyes y el tipo de modelo al que corresponden son las siguientes:

Ley
Ecuación Modelo Gráfico
Bibliométrica
Ley de Price del
crecimiento
Exponencial positivo
exponencial de la T  aebt
Ciencia
Ley de Lotka de la k
productividad de los A Potencial inverso
autores T
Ley de Bradford de Logarítmico (En la
las revistas y su R  a  b log r zona periférica al
dispersión núcleo)
Ley de Zipf de la
distribución de k
F  Potencial inverso
palabras en los R
textos
Ley de Brookes del
envejecimiento de la U  U 0at Exponencial negativo
información
(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

También podría gustarte