Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Nombre (código):
Profesor: Jaime Betancourt
Ajuste de Datos
Una relación lineal es una tendencia en los datos que se puede modelar mediante una línea
recta.
1
Cuando una variable aumenta mientras la otra variable disminuye, existe una relación lineal
negativa. Los puntos de la figura 2 siguen la línea muy de cerca, lo que sugiere que la
relación entre las variables es fuerte.
Los puntos de los datos de la figura 3 parecen estar distribuidos de manera aleatoria. No
se encuentran cerca de la línea, lo que indica una relación muy débil, si existe alguna.
Si una relación entre dos variables no es lineal, la tasa de aumento o descenso puede
cambiar a medida que una variable cambia, causando un "patrón de curva" en los datos.
Esta tendencia en forma de curva se podría modelar mejor mediante una función no lineal,
como una función cuadrática o cúbica, o se podría transformar para convertirla en lineal. La
figura 4 muestra una relación fuerte entre dos variables.
2
En una relación monótona, las variables tienden a moverse en la misma dirección relativa,
pero no necesariamente a un ritmo constante. En una relación lineal, las variables se
mueven en la misma dirección a un ritmo constante. La figura 5 revela que ambas variables
aumentan al mismo tiempo, pero no al mismo ritmo. Esta relación es monótona, pero no
lineal.
Introducción
La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian la
relación lineal existente entre dos variables. Antes de profundizar en cada uno de ellos,
conviene destacar algunas diferencias:
• La correlación cuantifica como de relacionadas están dos variables, mientras que
la regresión lineal consiste en generar una ecuación (modelo) que, basándose en
la relación existente entre ambas variables, permita predecir el valor de una a partir
de la otra.
• El cálculo de la correlación entre dos variables es independiente del orden o
asignación de cada variable a X e Y, mide únicamente la relación entre ambas sin
considerar dependencias. En el caso de la regresión lineal, el modelo varía según
qué variable se considere dependiente de la otra (lo cual no implica causa-efecto).
• A nivel experimental, la correlación se suele emplear cuando ninguna de las
variables se ha controlado, simplemente se han medido ambas y se desea saber
si están relacionadas. En el caso de estudios de regresión lineal, es más común
que una de las variables se controle (tiempo, concentración de reactivo,
temperatura…) y se mida la otra.
• Por norma general, los estudios de correlación lineal preceden a la generación de
modelos de regresión lineal. Primero se analiza si ambas variables están
correlacionadas y, en caso de estarlo, se procede a generar el modelo de regresión.
3
Correlación lineal
Para estudiar la relación lineal existente entre dos variables continuas es necesario
disponer de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros
es la covarianza, que indica el grado de variación conjunta de dos variables aleatorias.
∑𝒏𝒊=𝟏(𝒙𝒊 − 𝒙
̅)(𝒚𝒊− 𝒚
̅)
𝒔𝟐 = 𝒄𝒐𝒗(𝒙𝒚) =
𝒏−𝟏
La covarianza depende de las escalas en que se miden las variables estudiadas, por lo
tanto, no es comparable entre distintos pares de variables. Para poder hacer
comparaciones se estandariza la covarianza, generando lo que se conoce
como coeficientes de correlación. Existen diferentes tipos, de entre los que destacan
el coeficiente de Pearson, Rho de Spearman y Tau de Kendall.
• Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1
una correlación negativa perfecta.
• Se emplean como medida de fuerza de asociación (tamaño del efecto):
o 0: asociación nula.
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.
4
correlación de ambas variables es 0, ya que el valor observado puede deberse a simple
aleatoriedad.
La correlación lineal entre dos variables, además del valor del coeficiente de correlación
y de sus significancia, también tiene un tamaño de efecto asociado. Se conoce
como coeficiente de determinación R2. Se interpreta como la cantidad de varianza de Y
explicada por X. En el caso del coeficiente de Pearson y el de Spearman, R2 se obtiene
elevando al cuadrado el coeficiente de correlación.
Coeficiente de Pearson
El coeficiente de correlación de Pearson es la covarianza estandarizada, y su ecuación
difiere dependiendo de si se aplica a una muestra, Coeficiente de Pearson muestral (r), o
si se aplica la población Coeficiente de Pearson poblacional (ρ).
𝐶𝑜𝑣(𝑥𝑦)
𝜌=
𝜎𝑥 𝜎𝑦
Condiciones
• La relación que se quiere estudiar entre ambas variables es lineal (de lo contrario,
el coeficiente de Pearson no la puede detectar).
• Las dos variables deben de ser cuantitativas.
• Normalidad: ambas variables se tienen que distribuir de forma normal. Varios
textos defienden su robustez cuando las variables se alejan moderadamente de la
normal.
• Homocedasticidad: La varianza de Y debe ser constante a lo largo de la variable X.
Esto se puede identificar si en el scatterplot los puntos mantienen la misma
dispersión en las distintas zonas de la variable X. Esta condición no la he
encontrado mencionada en todos los libros.
Características
• Toma valores entre [-1, +1], siendo +1 una correlación lineal positiva perfecta y -1
una correlación lineal negativa perfecta.
• Es una medida independiente de las escalas en las que se midan las variables.
• No varía si se aplican transformaciones a las variables.
• No tiene en consideración que las variables sean dependientes o independientes.
5
• El coeficiente de correlación de Pearson no equivale a la pendiente de la recta de
regresión.
Interpretación
Además del valor obtenido para el coeficiente, es necesario calcular su significancia. Solo
si el p-value es significativo se puede aceptar que existe correlación y esta será de la
magnitud que indique el coeficiente. Por muy cercano que sea el valor del coeficiente de
correlación a +1 o -1, si no es significativo, se ha de interpretar que la correlación de
ambas variables es 0 ya que el valor observado se puede deber al azar. (Ver más adelante
como calcular la significancia).
Practica
Comprobación Experimental de un Modelo Teórico
Considere los siguientes ejemplos para indicar el proceso de ajuste de un conjunto de datos
a una línea recta.
Ejemplo 1(Ajuste a una línea recta): Considere los siguientes datos (Tabla 1) de un
experimento cualquiera, vamos ajustar los datos a una línea recta (𝑦 = 𝑏𝑥 + 𝑎, siendo b la
pendiente y a intercepto) y veremos qué tan bueno es el ajuste.
Datos
Experimentales x y ∆y
1 0 0,9 0,5
2 1 4 1
3 2 9,8 0,8
4 3 14 1
5 4 17 1
6 5 22 2
Tabla1: Datos Experiméntales
Usaremos el método de los mínimos cuadrados visto en la guía Ajuste de Curvas del
laboratorio de Física 1 como se anexa a los documentos.
En esta guía debemos revisar los temas de “Fundamento Teórico” y “Ajuste de una línea
recta” en los temas extraídos de la guía de laboratorio 2 de física 1, que están detallados
en la próxima página.
6
s sx sy sxx sxy ∆
4,00 0 3,6 0 0 186,141
1,00 1 4 1 4
1,56 3,125 15,3125 6,25 30,625
1,00 3 14 9 42
1,00 4 17 16 68
0,25 1,25 5,5 6,25 27,5
8,8125 12,375 59,4125 38,5 172,125
a ∆a b ∆b
0,8452 0,4548 4,1991 0,2176
Tabla2: Datos de los mínimos cuadrados y pendiente e intercepto
Los anteriores datos son ejecutados en el Excel, de las ecuaciones 1.3 a 1.12 de las páginas
ya mencionadas (Tabla 2).
15
10
y
0
0 1 2 3 4 5 6
-5
x
Luego con los mismos datos buscamos la calidad del ajuste (Tabla 3) usando la definición
de la ecuación 1.4 para determinar el termino ji-cuadrado (𝜒 2 ). Primero determinamos los
datos observados (yo) que corresponden a los datos obtenidos para los valores de y
medidos.
Luego determinamos los datos esperados (ye) aquellos se obtienen multiplicando el valor
de la pendiente (b=4,1991) a cada valor de x de la tabla de datos experimentales y a este
resultado se le suma el intercepto (a=0,8452), aplicando la ecuación siguiente;
7
X Datos ob. Datos Esp. (Yo-Ye)^2
0 0,9 0,8 0,00299814
1 4 5,0 1,0906421
2 9,8 9,2 0,30976844
3 14 13,4 0,31077841
4 17 17,6 0,41167417
5 22 21,8 0,02537272
Ji-cuadrado 2,15123399
ndf 4
N. Datos Exp 6
N. Parámetros 2
Ji-cuadrado/ndf 0,54
8
9
10
11
Practica de ajuste a una línea recta: Un estudiante cuelga masas de un resorte y mide la
longitud x (cm) en función de la fuerza en (Dn), para hallar la constante del resorte (k). Sus
medidas están en la tabla 3.
Use estos datos, el Excel y el método de los mínimos cuadrados, para determinar la
constante del resorte.
Linealización
Existen datos que al graficarlos no muestran una relación lineal, mientras que su relación
puede ser polinómica de orden dos (𝑦 = 𝑝0 + 𝑝1 𝑥 + 𝑝2 𝑥 2 ). Entonces tras un cambio de
variables la anterior ecuación se puede transformar en una relación lineal, a este proceso
se le llama linealización.
12
Datos Tiempo (s) Posición x(cm) ∆x (cm)
1 0 0 10
2 1 3,1 2
3 2 12,2 2
4 3 27 2
5 4 47,9 2
6 5 75,2 2
7 6 108,3 2
8 7 146,8 2
9 8 192,1 2
Los anteriores datos indican que el comportamiento de las variables es del tipo polinómico
1
de grado dos (𝑥 = 2 𝑎𝑡 2 ). Ajustando una curva polinómica con el Excel se obtiene una curva
con los datos de ajuste siguientes:
200
Posición x(cm)
150
100
50
0
0 1 2 3 4 5 6 7 8 9
Tiempo (s)
Cambiamos 𝑡 2 por x.
Cambiamos x por y.
1
La ecuación quedaría 𝑦 = 𝑚𝑥, donde 𝑚 = 2 𝑎 con el intercepto cero. De los datos de la
medición cambiamos al tiempo al cuadrado y nos queda una nueva tabla, como la que se
muestra en la tabla 5
13
Tiempo (s) T2 (s2) Posición x(cm) ∆x (cm)
0 0 0 2
1 1 3,1 2
2 4 12,2 2
3 9 27 2
4 16 47,9 2
5 25 75,2 2
6 36 108,3 2
7 49 146,8 2
8 64 192,1 2
150
100
50
0
-10 0 10 20 30 40 50 60 70
-50
t^2(s^2)
s sx sy sxx sxy
0,25 0 0 0 0
0,25 0,25 0,775 0,25 0,775
0,25 1 3,05 4 12,2
0,25 2,25 6,75 20,25 60,75
0,25 4 11,975 64 191,6
0,25 6,25 18,8 156,25 470
0,25 9 27,075 324 974,7
0,25 12,25 36,7 600,25 1798,3
0,25 16 48,025 1024 3073,6 Δ
2,25 51 153,15 2193 6581,925 2333,25
14
a ∆a b ∆b
0,077 0,97 3,000 0,0311
Una vez calculados la pendiente y el intercepto, recalculamos los valores que deberían
esperarse si los datos se ajustan a una línea recta con la siguiente ecuación 𝑦 = 3𝑥 + 0.97.
Ji-cuadrado/ndf 0,7
Tabla 8: Determinación de Ji-cuadrado.
Practica de linealización de una relación polinómica: Se deja caer un objeto desde una
altura inicial de 20 m (𝑦0 = 20𝑚). Se mide el tiempo cada 0,25 segundos y su respectiva
altura. Con los datos anteriores realizar una linealización en el Excel de acuerdo al
procedimiento anterior y calcular la aceleración de la gravedad, con los datos de la tabla 8.
15
Error
Datos Tiempo (s) Altura (m) Diferencia h(m) h(m)
h1 0,25 49,3 0,8 0,6
h2 0,5 48,0 2,0 0,6
h3 0,75 46,6 3,4 0,5
h4 1 45,1 4,9 1,2
h5 1,25 41,7 8,3 0,5
h6 1,5 38,4 11,7 0,5
h7 1,75 34,3 15,7 0,5
h8 2 29,8 20,3 0,6
h9 2,25 24,7 25,4 0,5
h10 2,5 18,7 31,3 0,6
h11 2,75 12,6 37,4 0,5
h12 3 5,4 44,7 0,5
𝑃(𝑡) = 𝑃0 𝑒 −𝛾𝑡
A partir de esta relación, aplicamos logaritmo natural a ambos lados de la relación:
𝑏 = −𝛾: Pendiente
𝑎 = 𝐿𝑛𝑃0 : Intercepto
𝑥 = 𝑡 : Variable independiente
16
Tiempo t(s) Población P(t) ΔP(t)
0 4999000 500
1 2750200 500
2 1512800 500
3 832000 500
4 457400 500
5 251800 500
6 138200 500
7 77100 500
8 42900 500
Tabla 10: Determinación de Ji-cuadrado.
Se grafican los datos en una escala lineal y se obtiene la siguiente gráfica (figura 4). La
grafica representa una curva de dispersión y se ve que los datos muestran una tendencia
exponencial:
Crecimiento de Población
6000000
5000000
Población (p)
4000000
3000000
2000000
1000000
0
0 1 2 3 4 5 6 7 8 9
Tiempo (s)
Se aplica el respectivo ajuste en Excel a una función tipo exponencial y los resultados del
ajuste fueron:
𝑷𝟎 = 𝟓𝒙𝟏𝟎𝟔
𝜸 = 𝟎, 𝟓𝟗𝟔
17
Crecimiento de Población
6000000
5000000
y = 5E+06e-0,596x
Población (p) 4000000 R² = 1
3000000
2000000
1000000
0
0 1 2 3 4 5 6 7 8 9
Tiempo (min)
Lo anterior también se puede obtener aplicando escala logarítmica al eje de las abscisas
(y), se obtendría una gráfica como la figura 6.
Crecimiento de Población
10000000
1000000
100000
Población (p)
10000
1000
100
10
1
0 1 2 3 4 5 6 7 8 9
Tiempo (min)
Pero es más fácil cambiar los datos en las abscisas por el logaritmo natural de las abscisas
y se obtiene la tabla 9:
18
Tiempo t(s) Población P(t) ΔP(t) Ln(P(t)) Ln(ΔP(t))
0 4999000 500 15,42 6,21
1 2750200 500 14,83 6,21
2 1512800 500 14,23 6,21
3 832000 500 13,63 6,21
4 457400 500 13,03 6,21
5 251800 500 12,44 6,21
6 138200 500 11,84 6,21
7 77100 500 11,25 6,21
8 42900 500 10,67 6,21
Con estos datos graficamos y obtenemos, la figura 7, con su respectivo ajuste a una línea
recta.
Crecimiento de Población
18.00
Población (Lnp)
16.00
14.00
12.00
10.00
8.00 y = -0,5956x + 15,42
6.00 R² = 1
4.00
2.00
0.00
0 1 2 3 4 5 6 7 8 9
Tiempo (min)
Aquí nos podemos dar cuenta que la pendiente es la misma: 𝑏 = 0,596, para el valor del
intercepto debemos realizar el siguiente cambio. Aplicar la función exponencial al valor
obtenido en el ajuste ln(15,42) = 4975318,766 ≈ 5𝑥106 .
Encuentre la ecuación (𝑁(𝑡) = 𝑁0 𝑒 −𝜆𝑡 ) de los datos usando el método anterior. Determine
el valor de la constante lambda (𝜆).
19
T(días) N(106) ∆N(106)
0,2 32 0,7
2,2 25 0,8
4 22 0,8
5 19 0,8
6 17 0,8
8 14 0,8
11 12,4 0,7
12 10,3 0,7
15 7,5 0,7
18 4,9 0,7
26 4 0,7
33 2,4 0,7
39 1,4 0,7
45 1,1 0,7
Tabla 13: Datos medidos de tiempo, posición y error en la posición de un balín que
rueda
Aquí existe un tratamiento alternativo de los datos. Aplicamos logaritmos a ambos lados de
1
la ecuación (𝑥 = 2 𝑎𝑎𝑐𝑒 𝑡 2 ), así:
1 1
log10 (𝑥) = log10 ( 𝑎𝑎𝑐𝑒 𝑡 2 ) = log10 ( 𝑎𝑎𝑐𝑒 ) + 2 log10 (𝑡)
2 2
20
1
Aquí las nuevas variables son; log10 (𝑥) = 𝑦, log10 (𝑡) = 𝑥 , 𝑏 = 2, 𝑎 = log10 (2 𝑎𝑎𝑐𝑒 ). La
relación viene ahora a ser lineal, es decir; 𝑦 = 𝑏𝑥 + 𝑎. Por lo tanto los datos quedarían;
En este caso la gráfica y el ajuste queda representado por la figura 8. Según los resultados
1
del ajuste vemos que la pendiente 𝑏 = 2, el intercepto 𝑎 = log10 (2 𝑎𝑎𝑐𝑒 ). De lo anterior
despejamos la aceleración y tendríamos 𝑎𝑎𝑐𝑒 = 2𝑥10𝑎 = 2𝑥100.4887 = 6.16, que sería la
aceleración del balín.
1.00
0.50
0.00
0.00 0.20 0.40 0.60 0.80 1.00
log(t)
𝑃 = 𝑎𝑉 𝑏
21
Donde a y b son dos parámetros totalmente desconocidos. Utilice el método anterior para
determinar los parámetros a y b. Para lo anterior utilice los siguientes datos.
N P(kg/cm3) Vol.(Litros)
1 0,5 1,65
2 1 1,03
3 1,5 0,74
4 2 0,61
5 2,5 0,53
6 3 0,45
En todos los anteriores ejercicios determine la calidad del ajuste usando el método
del Ji-cuadrado junto con el coeficiente de correlación.
22