Está en la página 1de 8

Manual de prácticas Bioestadísticas II PRACTICA 4

Regresion Lineal

ITBOCA

Práctica 4
Regresión Lineal

Competencias.
Identificar las formas que existen para la transformación de datos.
Distinguir el análisis de regresión lineal.
Analizar los diferentes modelos de regresión para determina cual utilizar bajo ciertas condiciones
de las variables a manipular.

Introducción
La regresión lineal describe la relación que pueda existir entre dos variables. A diferencia de
la correlación, la variable independiente en la regresión lineal es fijada por el investigador. La
regresión lineal es uno de los modelos estadísticos más
PRACTICA 5.1utilizado en diferentes áreas, como en
Prueba de Chi
acuacultura, en pesquerías, ecología y obviamente biología. En esteo modelo se revela la causa –
cuadrada, Independencia
Prueba de Asociación
efecto entre las variables a estudiar.

Matemáticamente esta relación estrecha es expresada como:

𝑦̂ = 𝑎 + 𝑏𝑥

Donde 𝑦̂ esel valor predictivo de Y

a = es la ordenada a la origen o el intercepto en el eje de y.

b= es la pendiente de la línea de regresión.

X = un valor de la variable de predicción.

Calculando la ecuación de regresión estimada.

La fórmula de la pendiente estimada por la ecuación de regresión es dada por:


∑𝑥∑𝑦
∑𝑥𝑦−
𝑛
𝑏= (∑𝑥)2
∑𝑥 2 −
𝑛
PRACTICA 4
Regresion Lineal
Manual de prácticas Bioestadísticas II ITBOCA

El estimado del intercepto estar dado por

a = y − bx

Correspondencia de la práctica
Esta práctica le corresponde a la unidad 2 con los temas y subtemas Regresión y correlación,
Regresión lineal Simple, Introducción a la regresión no lineal, Regresión múltiple.

Material y equipo necesario


Computadora cargada con herramienta de análisis de datos en Excel.
Base de datos

Metodología
Ejemplo de Problema de Investigación

Células de algas fueron incubadas en un medio de cultivo conteniendo diferentes


concentraciones de cloruro de dilitio. Después del periodo de incubación, la concentración de Dilitio
(μg/g) en las células de algas fue determinada. Para los ejercicios, calcule la ecuación de regresión,
pruebe la hipótesis nula β=0, calcule con un 95 % de intervalo de confianza para la pendiente, calcule
el coeficiente de determinación, calcule “y” y el 95 % de intervalo de confianza para μy por cada
valor de x y grafique su resultado. Responda cualquier pregunta adicional específica de cada
ejercicio.

La hoja de Excel que contiene los datos de esta investigación se muestran abajo.
PRACTICA 4
Regresion Lineal
Manual de prácticas Bioestadísticas II ITBOCA

Pasos a seguir para analizar el problema de Investigación

1. Planteamiento de hipótesis.
Las hipótesis para esta investigación son:
Hipótesis nula β=0, (que es la pendiente igual a cero)
Hipótesis alternativa que β≠0 (que la pendiente es diferente de cero)

2. Haga clic en Datos en la barra de herramientas en la parte superior de la pantalla y seleccione


Análisis de Datos.

Si el análisis de datos no aparece como una opción en la cinta de datos, tendrá que cargar el Paquete
de herramientas de Microsoft de Excel.

3. En la caja de diálogo de Análisis de Datos. Seleccione Regresión y haga clic en Aceptar.

4. Complete el cuadro de diálogo como se muestra a continuación. Una descripción de las entradas
se da inmediatamente después del cuadro de diálogo.
PRACTICA 4
Regresion Lineal
Manual de prácticas Bioestadísticas II ITBOCA

• Rango Y de Entrada. Es el rango de los valores que contiene la hoja de Excel de la variable
(Concentración en el medio (μM/L)). Para ingresar el rango, haga clic en la ventana de Rango
Y de Entrada y arrastre desde la celda B1 hasta la celda B7. Si lo prefiere, escriba
manualmente B1:B7 en la ventana del Rango Y de Entrada.

• Rango X de entrada. Es el rango de los valores que contiene la hoja de Excel de la variable
(Concentración en el medio (μM/L)). Para ingresar el rango, haga clic en la ventana de Rango
X de Entrada y arrastre desde la celda A1 hasta la celda A7. Si lo prefiere, escriba
manualmente A1:A7 en la ventana del Rango X de Entrada.

• Rótulos. Podría hacer seleccionada ya que los nombres de las variables en las celdas A1 y
B1 se incluyeron en el rango de entrada y podrían no ser incluidas en el análisis de regresión.
No obstante estas etiquetas deben ser usadas en la hoja de salida.

• Constante igual a cero. No se Checa, ya que no queremos forzar la línea de regresión a


través del origen.

• Nivel de confianza. No lo seleccione, utilizaremos el nivel de confianza del 95% que por
default nos da Excel.

• Opciones de salida. Seleccione la opción en una hoja nueva.

5. Haga clic en aceptar, abajo se muestra cómo se genera la hoja de salida. Se recomienda ampliar
las columnas para que se pueda leer las etiquetas y los resultados completos.
PRACTICA 4
Regresion Lineal
Manual de prácticas Bioestadísticas II ITBOCA

Hoja de resultados

Interpretando los resultados


Resumen

Estadísticas de la regresión

• Coeficiente de correlación múltiple. Excel provee este valor que es r, el coeficiente de


correlación Pearson. Expresando la relación lineal entre Concentración en el medio (μM/L) y
Concentración de células (μg/g). El propósito de este coeficiente es para medir la fuerza de la
relación lineal entre la variable dependiente, y la variable de predicción x.

• Coeficiente de determinación (R2). R cuadrado también se conoce como el coeficiente de


determinación. Representa la proporción de variación en y que es de explicado por su relación
lineal con X. Para nuestro problema de investigación| las dos variables, R2 es igual a 0.999. Ya
que sólo tenemos una variable predictiva, R2 podría ser representada como r2.

• R cuadrado Ajustado. Nuestra R2 tiende a ser una estimación optimista de la adecuación entre
el modelo y la población. R2 ajustado generalmente proporciona una mejor estimación. El R2
ajustado para nuestro problema muestra de dos variables fue 0.99894835045767.

• Error típico. es el error estándar de la estimación y se interpreta como el error promedio de


predicción de y, por el promedio de la ecuación de regresión. Para el problema, nosotros
podríamos estimar que vimos un error en promedio de, 2.63937527519638puntos
PRACTICA 4
Regresion Lineal
Manual de prácticas Bioestadísticas II ITBOCA

correspondientes a la categoría cuando utilizamos la ecuación de regresión para predecir la


Concentración en Células (μg/g).

• Observaciones. Se refiere al número de datos incluidos en el análisis.

Análisis de varianza
El Análisis de Regresión incluye una prueba de hipótesis de que la pendiente de la recta de
regresión es igual a O. Si la pendiente es significativamente diferente de 0, entonces nosotros
concluimos que existe una relación lineal estadísticamente significativa entre la Concentración en
el medio (μM/L) y la Concentración de células (μg/g).

•Regresión. Este componente representa la variación en la Concentración de células (μg/g) que se


explica por su relación con la Concentración en el medio (μM/L).

•Residuos. Variación residual representa la variación de la Concentración de células (μg/g) que no


se explica por la Concentración de células (μg/g). Se considera "variación del error" porque es
inexplicable por la variable de predicción que hemos incluido en el análisis.

•Total. Se refiere a la “variación total." Para este análisis, la variación total está dividida en variación
de la regresión y variación residual. Por lo tanto, es la suma de la variación de la regresión y variación
residual.

Para cada una de las fuentes de variación, se proporcionan los grados de libertad y las
sumas de cuadrados. La F, que se obtiene dividiendo el promedio de los cuadrados de la regresión
entre el promedio de los cuadrado de los residuos. El valor crítico de F es la probabilidad (P-valor)
asociados con el valor obtenido de F. En este caso la prueba es estadísticamente significativa con
alfa igual a 0,05, ya que el valor P de 2.66E-07 es menor que el valor de F obtenido.

Coeficientes
La información provista en la parte inferior de la hoja de salida se refiere a los coeficientes
de la ecuación de la regresión. La ecuación de la regresión de nuestro problema de investigación
está dado por y = -1.90+ 10.7X (REDONDEADOS)

• Intercepto u ordenada al origen. Intercepto es igual -1.899769585.Estadístico t. se refiere a una


prueba de hipótesis de que la intercepción es significativamente distinta de cero. El valor de la
probabilidad está asociada con los valores obtenidos del estadístico t. Los límites del intervalo
de confianza del 95% se aplican, alrededor del valor de la intercepción.

• La pendiente o Concentración en el medio (μM/L) fue de 10.7. Estadístico t. se refiere a la


prueba de hipótesis de que la pendiente es igual a cero. Para este análisis, él estadístico t y F en
la tabla de ANOVA nos da una prueba de la misma hipótesis. En consecuencia, F puede
obtenerse elevando al cuadrado el valor del estadístico de t obtenido. El valor de P es la
probabilidad asociada con el estadístico de t obtenido. El 95% y 99% intervalo de confianza
PRACTICA 4
Regresion Lineal
Manual de prácticas Bioestadísticas II ITBOCA

límites pueden ser usados para formar 95% y 99% intervalo de confianza, El valor de la
probabilidad está asociada con los valores obtenidos del estadístico t. Los límites del intervalo
de confianza del 95% se aplican, alrededor del valor de la pendiente.

Análisis de los residuales


Observación. Las observaciones son numeradas del 1 al 6. Estos números corresponden al orden en
que las observaciones aparecen en el conjunto de datos. Por ejemplo, la observación 1 hace
referencia a la célula que recibió cero Concentración en el medio (μM/L) y cero Concentración de
células (μg/g).

• Pronóstico Concentración en el medio (μM/L). Es el Pronóstico de la Concentración en el medio


(μM/L) para cada célula utilizando la ecuación de predicción 𝑦̂ = −1.90 + 10.7𝑥.

•Residuos. Esto es el error de predicción y es calculado Y -𝑦̂ Por ejemplo, para la observación 2 (X
=1) la Concentración en el medio (μM/L) fue 9. El Pronóstico Concentración en el medio (μM/L) para
la observación 2 fue 8.794930876. El Error de predicción para la observación 2 fue 9 - 8.794930876,
o -0.205069124.

De esta manera podemos concluir que 0.999 o 99.9 % de la varianza en “y” es dependiente
en x, lo cual quiere decir que cuando se conoce el valor de x nosotros reducimos la incertidumbre
acerca de “y” por 99.9 %. Hay una varianza residual o “inexplicable” de 100-99.9 = 0.01 % de la
varianza en “y” no explicada. Esta es varianza entre individuos que no es relacionada para x.Si todos
los puntos cayeran exactamente para ver la línea recta, R2=100% y la varianza no explicada sería
igual a cero. El coeficiente de determinación puede ser calculado por el análisis de correlación, en
este caso es el cuadrado del coeficiente de la correlación r. No obstante, en los tratamientos de
correlación r no podría ser considerada como una medida de la variación de y que es explicado o en
la dependiente de x pero más bien como la variación de y que esta es asociada con la varianza de
x y viceversa.

Predicción y de x.
Un importante uso de la regresión nos permite predecir el valor de y para dar un valor a x.
Esto debe hacerse con algunas restricciones. Aun cuando las predicciones acerca de y deben
mantenerse dentro de límites razonables de x, es importante recordar que y no es usualmente una
función exacta de x ya que y es una variable al azar normalmente distribuida, así de esta manera
cuando se predice el valor de y para x lo que se está haciendo es estimar el valor promedio de la
población de y para algún valor en particular de x. este valor estimado es designado como 𝑦̂
“sombrerito”.

Entonces, con toda esta información anterior se muestra la ecuación de la regresión


quedaría de la siguiente forma:
𝑦̂ = −1.90 + 10.7𝑥

Con esta ecuación podemos predecir valores de y con valores de x, por ejemplo nosotros
podríamos querer predecir el valor de 25 de Concentración en el medio (μM/L) sustituyendo este
valor para en X de la ecuación
PRACTICA 4
Regresion Lineal
Manual de prácticas Bioestadísticas II ITBOCA

𝑦̂ = −1.90 + 10.7(25)

En la celda A8, anote 25, active la celda B8 e ingrese la siguiente fórmula =-1.90+10.7*25,
haga clic en Enter y el resultado 265.6 se mostrará. Estos pasos los puede repetir para cualquier
valor de x que usted quiera inter o extrapolar.

Sugerencias didácticas
• Establecer y reconocer las diferencias y semejanzas entre la correlación y la regresión lineal.

• Dejar perfectamente claro que las predicciones de y en base a x deben realizarse con sumo
cuidado, ya que en fenómenos biológicos, por ejemplo la temperatura debe mantenerse bajo
límites razonables.

• Reconocer la función y la importancia de análisis de regresión en trabajos experimentales.

También podría gustarte