Está en la página 1de 10

PRÁCTICA # 1: REGRESIÓN LINEAL Y ANÁLISIS DE DATOS

1. OBJETIVOS:

El objetivo de esta práctica es familiarizar al estudiante con el concepto de regresión


lineal y su aplicación en el análisis de datos experimentales. A través de esta actividad,
los estudiantes aprenderán a realizar una regresión lineal, interpretar los resultados y
evaluar la aplicabilidad de esta herramienta estadística en el reporte de los resultados
experimentales.

2. INTRODUCCIÓN.

La regresión lineal es una técnica estadística fundamental que se utiliza para modelar la
relación entre dos o más variables. Es especialmente útil cuando queremos entender
cómo una variable dependiente cambia en respuesta a cambios en una variable
independiente. En esta práctica de laboratorio, exploraremos el concepto de regresión
lineal y su aplicación en el análisis de datos experimentales.

La regresión lineal busca encontrar la mejor línea recta que se ajuste a un conjunto de
datos, de manera que minimice la distancia entre los puntos de datos reales y los
predichos por la línea de regresión. Esta línea se caracteriza por dos parámetros
principales: la pendiente y la ordenada al origen. La pendiente indica la tasa de cambio
de la variable dependiente con respecto a la variable independiente, mientras que la
ordenada al origen representa el valor de la variable dependiente cuando la variable
independiente es igual a cero.

Durante esta práctica, utilizaremos un conjunto de datos experimental que contiene


mediciones de dos variables: una variable independiente (X) y una variable dependiente
(Y). A través del análisis de estos datos, aprenderemos a calcular la pendiente y la
ordenada al origen de la línea de regresión, trazarla en un gráfico de dispersión y evaluar
la calidad del ajuste utilizando el coeficiente de correlación (R²).

Al comprender y aplicar la regresión lineal, los estudiantes desarrollarán habilidades


importantes en el análisis de datos, que son fundamentales en una amplia gama de
disciplinas científicas y de ingeniería. Esta práctica servirá como una introducción
práctica a este poderoso concepto estadístico y sentará las bases para investigaciones
futuras en análisis cuantitativo de datos.

2.1. Precisión y exactitud.

Los conceptos de precisión y exactitud suelen usarse sin mucha rigurosidad. Esto no
suele representar un problema si cada vez se aclara el significado de su uso. Sin
embargo, es posible definir el significado de cada concepto, como sigue a continuación.
Cuando se realizan varias mediciones de la misma magnitud en iguales condiciones,
suele ser común que los valores obtenidos no coincidan, sino que se encuentren
distribuidos alrededor de un valor central. En este contexto, el concepto de precisión
tiene que ver con cuán concentrados están dichos valores (repetitividad).
Por otro lado, la exactitud tiene que ver con cuán cerca del verdadero valor se
encuentran los resultados de las sucesivas mediciones.

2.2. Los errores de medición.

Al efectuar la medida, sabemos que existe un valor verdadero de la magnitud física que
se estudia, pero, a pesar de todos los cuidados que se tomen al seleccionar el
instrumento utilizado para realizar las medidas y el esmero con que se realicen, nunca
se logrará alcanzar ese valor verdadero y por ello buscaremos la mejor aproximación
que podamos alcanzar.
El valor medido de una cantidad física depende tanto de la precisión del instrumento
como del método de medición, y también de la experiencia y atención del operador. Es
decir, inevitablemente toda medición está afectada por las imperfecciones de los
instrumentos, por las condiciones de la medida y también por las limitaciones de
nuestros sentidos.
En ciencias e ingeniería, llamamos error a la incertidumbre que se tiene en la cantidad
medida. Es un indicador del grado de credibilidad del resultado de una medición.
Cuando reportamos el valor de la cantidad junto con su correspondiente error, quedan
bien especificados los límites dentro de los cuales se encuentra el valor verdadero, dado
que la medición sólo nos brinda un valor aproximado. Los errores son parte inherente
del propio proceso de medición y, generalmente, se suelen clasificar en sistemáticos y
casuales.

2.3. Errores sistemáticos

Son aquellos errores que se repiten constantemente en el transcurso del experimento y


afectan a todas las medidas de la misma manera; tienen un mismo signo algebraico, esto
es, tienden a dar valores siempre mayores o siempre menores que el valor verdadero.
No se pueden minimizar por la vía del cálculo de promedios repitiendo las mediciones
varias veces.
Un error sistemático muy común es el llamado error de paralaje, por la tendencia del
operador a ubicarse mal frente al instrumento, dirigiendo la visual en forma oblicua
sobre la escala (Fig. 3).

Fig. 3: Un error de paralaje


Los errores sistemáticos pueden producirse por mala calibración en los instrumentos,
equipos defectuosos o por factores ambientales, como cuando el operador no se ha
dado cuenta que durante el transcurso del experimento ha ocurrido algún cambio de
temperatura, presión o humedad que afecta sus mediciones. Muchas veces los errores
sistemáticos suelen ser difíciles de detectar para poder ser corregidos y la única manera
de darnos cuenta es por comparación con otros métodos alternativos.

2.4. Errores casuales o aleatorios.

Son errores originados por factores accidentales o fortuitos; hacen que las medidas
obtenidas sean a veces mayores que el valor verdadero y otras veces menores. Se deben
a descuidos casuales del observador y a pequeñas variaciones de las condiciones
experimentales que escapan al control del observador. Se caracterizan por el azar de
ambos signos algebraicos, son variables en magnitud y oscilan alrededor de un valor
medio. Veremos que estos errores pueden ser minimizados aplicando criterios
estadísticos por la vía del cálculo de promedios, después de repetir la medición un
número suficiente de veces bajo las mismas condiciones.

2.5. El valor medio como el mejor valor de una cantidad medida.

Supongamos que una cantidad cuyo valor verdadero es Xv es medida N veces, (utilizando
el mismo instrumento y el mismo procedimiento) y encontramos N resultados: X1, X2,
X3,..., XN. Es posible demostrar (ver referencia 2) que en el límite N → ∞, el valor que
más se acerca al verdadero valor Xv , viene dado por el promedio aritmético de los N
valores:
1 N
x =  Xi
N i =1

2.6. Error absoluto

El error absoluto de una medida (εa) es la diferencia entre el valor real de la medida (X)
y el valor que se ha obtenido en la medición (Xi), (el valor real usado es el valor promedio
ya que no se conoce el real)

εa =|
x − xi |

2.7. Error relativo

Es el cociente entre el error absoluto y el valor que consideramos como exacto (la
media). Al igual que el error absoluto puede ser positivo o negativo porque puede se
puede producir por exceso o por defecto y al contrario que él no viene acompañado
de unidades.
𝜀𝑎
εr =
𝑥̄
De igual forma, se puede multiplicar por 100 obteniéndose así el tanto por ciento (%) de
error, se denomina error relativo porcentual.
εr %= εr* 100 %

2.8. ERROR CUADRÁTICO: La desviación estándar σ de la medida

Es la cantidad más apropiada para cuantificar la dispersión, σ, la cual se define como


la raíz cuadrada de la media de las desviaciones cuadráticas:

 ( x −x )
i
2

= i =1

N  ( N − 1)

De acuerdo con la teoría de Gauss de los errores, que supone que estos se producen por
causas aleatorias, se toma como la mejor estimación del error, el llamado error
cuadrático

2.9. Método de los mínimos cuadrados .

El método de mínimos cuadrados es una técnica matemática ampliamente utilizada para


encontrar la mejor estimación de los parámetros de un modelo matemático que se
ajusta a un conjunto de datos observados. Se utiliza comúnmente en análisis de
regresión para ajustar una línea (o curva) a puntos de datos dispersos.

El principio detrás del método de mínimos cuadrados es minimizar la suma de los


cuadrados de las diferencias entre los valores observados y los valores predichos por el
modelo. Es decir, se busca encontrar los parámetros del modelo que hacen que la
diferencia entre los datos observados y los predichos sea lo más pequeña posible.

Supongamos que hay n pares de mediciones (x1, y1), (x2, y2), ... ,(xn, yn) y que los errores
están en su totalidad considerados en los valores de y (es decir, conocemos exactamente
el valor de x). Si suponemos que yi es exactamente axi + b, el error cometido en la medida
será: yi – axi – b. La mejor recta será aquella cuyos valores de a y b minimicen la suma
de los errores para todas las mediciones, porque será aquella que en conjunto se desvíe
menos del conjunto de datos en general. Sin embargo, esto tiene el problema de que
algunos errores pueden ser positivos y otros negativos. Si lo que nosotros miramos es la
suma total, algunos se cancelarían entre sí, lo que no tiene sentido. Para evitarlo lo que
hacemos es minimizar la suma de los cuadrados de los errores, que siempre será
positiva. Tenemos entonces:
Aplicando la condición de mínimo:

La última ecuación muestra que la mejor recta pasa a través del punto:

es decir, por el centro de gravedad de todos los puntos.

Sin embargo, nosotros podríamos obtener valores de a y b para cualquier conjunto de


datos, estuvieran relacionados o no. El parámetro que nos cuantifica si de verdad y es
una función lineal de x es el coeficiente de correlación (Pearson), que tiene la expresión:
Los valores de r se encuentran siempre en el intervalo [-1, 1]. Si |r|→ 1, existe
correlación entre x e y, es decir, y depende linealmente de x. Por el contrario, si |r|→ 0
debe concluirse que x e y son independientes (o que y no depende linealmente de x) y
por lo tanto carece de sentido expresar y = ax + b. En general, si |r| < 0.8, la correlación
entre x e y es deficiente. El coeficiente de correlación nos permite entonces verificar la
hipótesis de partida que indicaba que la relación entre los valores x e y es lineal. Si la
hipótesis es verdadera, el coeficiente será próximo a 1 (en valor absoluto), y si es falsa,
r será menor de 0.8.

2.10. Regresión lineal en Excel

• Introduzca los datos, marque la pestaña “insertar” y el gráfico tipo “dispersión”


como en la ilustración 1

Ilustración 1

• Marque la primera opción, aparece un cuadro vacío, oprima el botón derecho y


del menú escoja “seleccionar datos y agregar”. Seleccione rango para los valores
x y y.
• En la pestaña presentación podemos establecer título del gráfico, nombres de
los ejes.
• Haciendo un doble clic en los ejes ajuste la escala para que el gráfico se expanda
por todo espacio dentro de cuadro.
• Fíjese si todos los datos-puntos son correctos y si no hay ningún punto disparado
que podría indicar que la medición en este punto no se realizó correctamente. Si
encuentra un punto así, elimínalo.
• A continuación, marque un punto del gráfico con el botón derecho del ratón y
marque la opción “agregar la línea de tendencia”
• Aparece siguiente ventana:
Ilustración 2

• Asegúrese qué tipo de tendencia será lineal y que están marcadas las dos últimas
opciones (presentar ecuación en el gráfico y presentar el valor R).

Ilustración 3

De esta forma podemos leer a y b de la recta y = ax+b. Si estamos completamente


seguros que todos los puntos son coherentes, otra manera de calcular la pendiente y
ordenada es utilizando funciones:

=PENDIENTE(valores Y; valores X)
=INTERSECCION.EJE(valores Y; valores X)
=PEARSON(valores Y; valores X) → R
=COEFICIENTE.R2(valores Y; valores X) → R2
3. PARTE EXPERIMENTAL.

3.1. Material y equipos.

• 2 vasos de precipitado ( 100 ml o 125 ml)


• 1 pipeta graduada de 25 ml.
• Marcador para rotular
• 1 balanza
• Piseta con agua destilada.

3.2. Procedimiento Experimental.

3.2.1. Actividad 1.

Determinar la masa de diferentes alícuotas de agua destilada.

Colocar un vaso de precipitado de 100 ml en la balanza, descartar el valor de masa del


vaso de precipitado utilizando la función de TARA.

Utilizar la pipeta graduada para medir diferentes cantidades de agua destilada (5, 10,
15, 20, 25, 30, 45, 50, 65, 70, 85, 90, 100)ml.

Anotar los datos de masa correspondiente a cada alícuota de agua destilada (llenar la
tabla de datos).

3.2.2. Actividad 2.

Con los datos de volumen y masa obtenidos calcular la densidad para cada medida
empleando la ecuación:

𝑚𝑎𝑠𝑎
𝜎=
𝑣𝑜𝑙𝑢𝑚𝑒𝑛

Tabla de datos

Volumen (ml) Masa (gr) Densidad (σ) (g/ml)


5
10
15
20
25
30
45
50
65
70
85
90
100

3.2.3. Actividad 3.

Grafique los datos de masa y volúmenes obtenidos en la actividad 1, aplique el método


descrito en la introducción para realizar la regresión lineal utilizando la herramienta de
cálculo EXCEL.
En EXCEL determine:

Parámetro Valor
PENDIENTE
INTERSECCION.EJE
COEFICIENTE. R2

3.2.4. Actividad 4.

Con los diversos valores de densidad calculados determinar:

Parámetro Valor
El valor medio
Error absoluto
Error relativo
La desviación estándar

4. Cuestiones.

• ¿Cuál es el objetivo principal del análisis de regresión lineal?

• Define el término "coeficiente de correlación" y explica su importancia en el


análisis de regresión.

• ¿Cuál es la diferencia entre la variable independiente y la variable dependiente


en un modelo de regresión lineal?

• ¿Qué significa que el coeficiente de correlación (r) sea cercano a 1? ¿Y cercano a


-1?

• ¿Cuál es la importancia de la pendiente y la intersección en una línea de


regresión?
5. BIBLIOGRAFÍA.

1. Salum Graciela, Apuntes: Sobre la Teoría de Errores y el significado de


la Incerteza Absoluta,Measurement errors and uncertainties: theory
and practice, 3rd ed., S. G. Rabinovich, Springer, New York, USA (2005).

2. Física Re-creativa. Experimentos de Física usando nuevas tecnologías,


1st ed., S. Gil y E. Rodríguez, Prentice Hall, New Jersey, USA (2001).

3. Teoría del Error, F. Cernuschi y F. Greco, EUDEBA, Buenos Aires,


Argentina (1968).

4. Fundamentos de Química Analítica, Skoog, D. A., West, D. M.

También podría gustarte