Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Z
Ejemplo de correlación espúrea: Cierto biólogo inglés publicó un estudio en el
que se comprueba que en los pueblos y ciudades con más cigüeñas en los
campanarios, X, nacen más niños, Y. Llegó a la conclusión de que “los niños los
trae la cigüeña”.
Lo cierto es que tanto el número de cigüeñas, X, como el de niños, Y, dependen
de la causa común, Z, que es el tamaño del pueblo o ciudad. En las poblaciones
grandes hay siempre más cigüeñas y más niños. Tanto cigüeñas como niños
están correlacionados con el tamaño de la población, pero no entre ellos
mismos.
Sea un conjunto de pares de valores de las variables X e Y. Si los
representamos en un diagrama de dispersión obtendremos una “nube de
puntos” que nos dará una idea gráfica de la posible correlación entre ambas
variables.
Y Y Y
X X X
• Potencial
• Potencial inversa
• Exponencial • Exponencial
positiva negativa
(c) Rosario Ruiz Baños. Departamento
de Biblioteconomía y Documentación. • Otros tipos • Otros tipos
Universidad de Granada (España)
Ecuación Explícita de la Recta
y y = a + bx
Los valores de “y” se
Y calculan multiplicando
“x” por la pendiente, b, y
X Y
b sumándole la ordenada
X en el origen, a
a
x
a .- Ordenada en el orígen. Punto de corte con el eje de ordenadas o “eje y”.
En este punto x está en el “origen” es decir x=0
b .- Pendiente. Grado de inclinación de la recta. Si es
positiva, la recta es creciente. Si es negativa es decreciente.
Es el cociente entre el incremento que se produce en la
variable dependiente, Y, cuando se incrementa la variable
independiente, X. (c) Rosario Ruiz Baños. Departamento
de Biblioteconomía y Documentación.
Universidad de Granada (España)
10 9
9 8
8
7 7
6 6
5 5
4 4
y 3 y 3
2
1 2
0 1
-1 0
-3 -2 -1-2 0 1 2 3 4 5
-5 -4 -3 -2 -1
-1 0 1 2 3 4 5 6 7
-3 -2
-4 -3
x x
y 1 2 x y 4 x
• Recta decreciente, ya que la
• Recta creciente, ya que la
pendiente es negativa
pendiente es positiva
• La recta decrece una unidad de y
• La recta crece dos unidades de y
por cada unidad de x, es decir b=-1
por cada unidad de x, es decir b=2
• Cuando x=0, y=4. La ordenada en
• Cuando x=0, y=1. La ordenada en
el origen, a, vale 4
el origen, a, vale 1
• La recta de regresión es la que se obtiene a partir de la nube de puntos y
es la que representa mejor la distribución de esos puntos como modelo
lineal.
• Se suele emplear el método de los Mínimos Cuadrados, que consiste en
encontrar aquella recta tal que la suma de los cuadrados de las distancias,
di, de los puntos a la recta sea la mínima posible.
y d10 d i
2
d12 d 22 ... di2 ... d n2 Mínimo
• Bajo esta condición se puede
d8 d9 demostrar que la pendiente, b, y la
ordenada en el origen, a, se determinan
d5
mediante:
d6
d4 x
n xi yi xi yi
b
d3
n xi2 xi
d2 2
d1
a
y b x
i i
n
x y 8
0 2 7 y =x+2
6
1 3
5
2 4
4
3 5
Y
3
2
1
0
n xi yi xi yi -4 -3 -2 -1 -1 0 1 2 3 4 5 6
b
n xi2 xi
2
-2
X
a
y b x
i i
n
Recordemos que...
Media aritmética: Suma de los valores que toma una variable dividida entre el
número total, n, de valores sumados.
x
x i
n
Varianza: Es una medida de lo que se dispersan los valores de una muestra
respecto de su media. Se determina con cualquiera de las formulas equivalentes
siguientes:
x x x
2 2
2
Vx S 2
x i
o bien mediante Vx S 2
x i
x
n n
La varianza, V, es también el cuadrado de la desviación típica, S.
Vxy S xy
x x y y
i i
o bien mediante Vxy S xy
x y i i
xy
n n
Bondad de los ajustes
Vxy S xy S xy
r
VxVy 2
S S
x
2
y
SxS y
x y i i
x y
n n xi yi xi yi
r r
xi2
n x
2 yi
n
2
y
2
n x x n y
2
i i
2 2
i yi
2
• El coeficiente de correlación, r, presenta valores entre –1 y +1.
• Cuando r es próximo a 0, no hay correlación lineal entre las variables. La
nube de puntos está muy dispersa o bien no forma una línea recta. No se
puede trazar una recta de regresión.
• Cuando r es cercano a +1, hay una buena correlación positiva entre las
variables según un modelo lineal y la recta de regresión que se determine
tendrá pendiente positiva, será creciente.
• Cuando r es cercano a -1, hay una buena correlación negativa entre las
variables según un modelo lineal y la recta de regresión que se determine
tendrá pendiente negativa: es decreciente.
xi yi
2
n x y n x y x y 2
R2
n x x n y y
i i i i
R2
xi2 2 yi 2
2 2 2 2 2
x y i i i i
n n
Y
0
n xi yi xi yi -2 -1 0 1 2 3 4 5 6 7
b -1
n xi2 xi
2
-2
a
y b x
i i
-3
n -4
X
n x y x y
2
n x x n y y
i i i i
R2 2 2 2 2
i i i i
Correlación Potencia - Velocidad
Conclusiones:
250 • Potencia y velocidad son dos variables
Velocidad máxima, V (Km/h)
12000
2500
10000
2000
Profesores
Profesores
8000
1500
6000
1000
4000
2000 500
0 0
0 100000 200000 300000 0 10000 20000 30000 40000 50000
Alumnos Alumnos
Antes de proceder a la regresión, hay que transformar la ecuación no lineal,
y = f(x), en otra del tipo Y = A + BX, donde Y, X, A y B son funciones de y, x,
a y b respectivamente.
Gráfica
Log x x Log x
Y Log y Ln y y
X Log x x Log x
A Log a Ln a a
B b b b
a 10 A eA A
b B B B
(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)
Una de las principales aportaciones de Galileo Galilei (1564-
1642), fue encontrar la relación entre el tiempo o periodo de
oscilación de un péndulo y su longitud. Esto permitió construir
por primera vez en la historia relojes de gran precisión basados
en péndulos. Dicen que la idea de correlacionar estas variables
se le ocurrió en la iglesia de su ciudad natal, Pisa, mientras,
absorto, observaba cómo oscilaban las lámparas del techo...
3,0
1,0 2,1 2,0
0,0
6,0 5,0 0,0 2,0 4,0 6,0 8,0 10,0
Longitud del péndulo, L(m)
9,0 6,0
Para encontrar el modelo que relaciona periodo de oscilación, T, con la longitud del
péndulo, L, Galileo bien pudo hacer las siguientes deducciones...
7,0
10,0
6,0
5,0
4,0
log T
T
3,0 1,0
2,0
1,0
No es lineal No es exponencial
0,0
0,1
0,0 2,0 4,0 6,0 8,0 10,0
0,0 2,0 4,0 6,0 8,0 10,0
L L
7,0 10,0
Tampoco es logarítmica
6,0
5,0
log T
4,0
T
1,0
3,0
2,0
Es potencial
1,0
0,0 0,1
0,1 1,0 10,0 0,1 1,0 10,0
log L log L
(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)
T aL b
y ax b
Como vamos a ajustar a un modelo potencial, hacemos el cambio de variables: X = log x e Y = log y.
Por lo demás se procede exactamente igual a una regresión lineal, ajustando a una expresión del tipo
Y = A + BX. Por último, de B y A calculados se despejan b y a respectivamente.
A
y b x
i i
2,150363 0,5085 0,686636
0,3002 a 10 A 100,3002 1,9962
n 6
n x y x y 2
n x x n y y 0.9988
i i i i
R2 2 2 2 2
i i i i
(c) Rosario Ruiz Baños. Departamento
de Biblioteconomía y Documentación.
Universidad de Granada (España)
10,0 7,0
6,0
5,0
log T
4,0
T
1,0
3,0
0,5085
y = 1,9962x y = 1,9962x 0,5085
2,0
R2 = 0,9988 R2 = 0,9988
1,0
0,1 0,0
0,1 1,0 10,0 0,0 2,0 4,0 6,0 8,0 10,0
log L L
1
T k L
T 2L 2L 2 L0 '5 2
El periodo de oscilación de un péndulo es
proporcional a la raíz cuadrada de su longitud
A partir de los datos adjuntos en los que se Edad, t (años) %C14 residual
dan valores de carbono 14 residual
respecto del tiempo transcurrido, 0 100
determina:
1000 92
a) Parámetros de la distribución de
%C14-Tiempo, sabiendo que es 5000 53
exponencial negativa 10000 30
b) Cuánto C14 quedará en el hueso que 20000 120 9,3
llevo en la mano si ambos tenemos
100
12.000 años.
%C14 residual
80
60
1000
40
Escala logarítmica
20
%C14 residual
100
0
0 5000 10000 15000 20000 25000
10 Edad, t (años)
1
0 5000 10000 15000 20000 25000
Edad, t (años)
y ae bx
%C14 ae bt
Se observa que la nube de
puntos se alinea cuando se a 100
toman logaritmos en la “y”. Por Solución:
tanto, el modelo es exponencial, b 1,194 10 4
y como decrece, es exponencial R 2 0,9992
negativo.
%C 14 24% de C14 residual
Como se está ajustando un MODELO EXPONENCIAL hacemos el cambio de variable Y =LN(y),
quedando x igual (X = x). En este caso A = Ln(a) y B = b.
A
y b x
i i
18,72846 (1,194 104 3,6 104 )
4,58933 a e A e4,58933 98,4 100
n 5
La Bibliometría está fundamentada en un conjunto de “leyes empíricas”. Estas leyes se han
establecido gracias a estudios cuantitativos en los que interviene el recuento de nº de artículos, nº
de revistas, nº de autores, etcétera. Las distribuciones que correlacionan estas variables se ajustan
mediante regresión lineal por el método de los mínimos cuadrados.
Las principales leyes y el tipo de modelo al que corresponden son las siguientes:
Ley
Ecuación Modelo Gráfico
Bibliométrica
Ley de Price del
crecimiento
Exponencial positivo
exponencial de la T aebt
Ciencia
Ley de Lotka de la k
productividad de los A Potencial inverso
autores T
Ley de Bradford de Logarítmico (En la
las revistas y su R a b log r zona periférica al
dispersión núcleo)
Ley de Zipf de la
distribución de k
F Potencial inverso
palabras en los R
textos
Ley de Brookes del
envejecimiento de la U U 0at Exponencial negativo
información
(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)