Tarea 4 - Analisis - Regresión y Correlación Lineal

Estudio de Casos.
Regresión y Correlación Lineal
Universidad nacional Abierta y a Distancia (UNAD)

Escuela de Ciencias Agrícolas, Pecuarias y del Medio Ambiente
Especialización en Biotecnología Agrícola
Curso de Biometría y Diseño Experimental
2019
Biometría y Diseño Experimental

Estudio de Casos.
Regresión y Correlación Lineal
José Alberto Montero

Héctor Antonio García
Walmer Jesús Mina
Luis Miguel Guzmán
Eliana María Báez

Tutora
Universidad nacional Abierta y a Distancia (UNAD)

Escuela de Ciencias Agrícolas, Pecuarias y del Medio Ambiente
Especialización en Biotecnología Agrícola
Curso de Biometría y Diseño Experimental
2019

Introducción
La forma de regresión más comúnmente utilizada es la regresión lineal, y el tipo más común de regresión
lineal se llama regresión de mínimos cuadrados ordinarios.
La regresión lineal utiliza los valores de un conjunto de datos existente que consiste en mediciones
de los valores de dos variables, X e Y, para desarrollar un modelo que sea útil para predecir el valor
de la variable dependiente, Y para valores dados de X.
Para desarrollar una REGRESIÓN LINEAL se requeiren una serie de pasos a desarrollar y estos
son:
1. Exponer la hipótesis.
2. Indique la hipótesis nula
3. Reúna los datos.
4. Calcule la ecuación de regresión
5. Examine las pruebas de estadística significativa y las medidas de asociación
6. Relacione los hallazgos estadísticos con la hipótesis. Acepta o rechaza la hipótesis nula.
7. Rechazar, aceptar o revisar la hipótesis original. Hacer sugerencias para el diseño de la
investigación y los aspectos de gestión del problema.
El análisis de regresión representa una herramienta muy importante para el diseño de experimentos,
ya que permite observar y comprobar relaciones de tipo lineal entre variables independientes y una
de respuesta y en este trabajo se busca aplicar los conceptos de la regresión lineal simple y múltiple,
así como las pruebas de hipótesis para probar significancia del modelo a partir de unos ejercicios
proporcionados.

Desarrollo de preguntas.
1. ¿Cuál es el propósito del análisis de regresión y correlación?

El propósito del Análisis de regresión es Estimar los valores de y (variable dependiente) a partir de
los valores de x (variable independiente). El propósito del análisis de Correlación es Medir la
intensidad de la asociación lineal entre dos variables aleatorias.
2. ¿Por qué se requiere la regresión lineal múltiple? ¿En qué casos se presenta?
La regresión lineal múltiple se utiliza para la predicción de respuestas a partir de variables
explicativas.
Se aplica en:
• Identificación de variables explicativas
Nos ayuda a crear un modelo donde se selecciones las variables que puedan influir en la respuesta,
descartando aquellas que no aportan información
• Detección de interacciones
Entre variables independientes que afectan a la variable de respuesta. Un ejemplo de interacción
clásico es el de estudiar la respuesta de un paciente al alcohol y a un barbitúrico y observar que
cuando se ingieren ambos el efecto es mucho mayor del esperado como suma de los dos
• Identificación de variables confusoras.
Es un problema difícil el de su detección, pero de interés en investigación no experimental ya que
el investigador frecuentemente no tiene control sobre variables independientes.
3. Que tipos de correlación existe, cite un ejemplo para cada uno de los casos.
• La correlación se encuentra entre (-1, 1)
• La correlación puede ser positiva: Significa que individuos que tienen puntuaciones ALTAS
en una variable tienden a obtener puntuaciones ALTAS en la otra variable y viceversa.
• La correlación puede ser negativa: Significa que individuos que tienen puntuaciones ALTAS
en una variable tienden a obtener puntuaciones BAJAS en la otra variable y viceversa.
• La correlación puede ser nula: Significa que no existe dependencia entre las variables.

La correlación puede clasificarse en dos tipos dependiendo de la cantidad de variables analizadas
y por el tipo de relación lineal, en el primer caso estamos haciendo referencia a:
- Correlación simple: se estudia la dependencia únicamente entre dos variables.
Ejemplo: La altura de una persona y el tamaño de su pie; mientras aumenta la altura, el pie también.
- Correlación múltiple: se estudia la dependencia entre más de 2 variables.
- Correlación parcial: cuando se incluye la influencia de variables exógenas no consideradas
en el cálculo de los coeficientes.
Dependiendo del tipo de relación lineal el coeficiente relaciona:
- Relación directa entre las variables: un aumento en la variable independiente implica un
aumento en la variable dependiente.
- Relación inversa entre las variables: un aumento en la variable independiente implica una
disminución en la variable dependiente.
4. ¿Qué es coeficiente de correlación y cuál es su interpretación?

El Coeficiente de correlación es una medida que permite conocer el grado de asociación lineal entre
dos variables cuantitativas (X, Y).
En los siguientes Diagramas de dispersión se puede observar que existe una relación lineal entre la
variable X y la variable Y.
Sin embargo si trazamos una línea recta en los diagramas.

Podemos observar que en un diagrama B los puntos se acercan más a la recta, caso contrario en el
diagrama A, los puntos están más alejados. Entonces podemos decir que la relación lineal del
diagrama A es más débil con comparación a la relación que existe en el diagrama B.
Recordar entonces que el coeficiente de relación lineal, mide la fuerza y el sentido de la relación
lineal entre 2 variables cuantitativas.
Tenemos entonces: Entre más cercano es a 1 es más fuerte, entre más cercano a 0 es débil hasta
llegar hacerse nula, si los valores del coeficiente de relación es -1 es una Asociación lineal perfecta
Negativa, si es 0 no existe relación y si es 1 es una Asociación Lineal perfecta Positiva.
Interpretación:
Si r < 0 Hay correlación negativa: las dos variables se correlacionan en sentido inverso. A valores
altos de una de ellas le suelen corresponder valores bajos de la otra y viceversa. Cuánto más
próximo a -1 esté el coeficiente de correlación más patente será esta covariación extrema. Si r= -1
hablaremos de correlación negativa perfecta lo que supone una determinación absoluta entre las
dos variables (en sentido inverso): Existe una relación funcional perfecta entre ambas (una relación
lineal de pendiente negativa).
Si r > 0 Hay correlación positiva: las dos variables se correlacionan en sentido directo. A valores
altos de una le corresponden valores altos de la otra e igualmente con los valores bajos. Cuánto
más próximo a +1 esté el coeficiente de correlación más patente será esta covariación. Si r = 1

hablaremos de correlación positiva perfecta lo que supone una determinación absoluta entre las dos
variables (en sentido directo): Existe una relación lineal perfecta (con pendiente positiva).
Si r = 0 se dice que las variables están incorrelacionadas: no puede establecerse ningún sentido de
covariación.
Propiedad importante: Si dos variables son independientes estarán incorrelacionadas, aunque el
resultado recíproco no es necesariamente cierto.
5. ¿Qué es coeficiente de determinación y cuál es su interpretación?
La bondad de la predicción depende de la relación entre las variables. Si dos variables no covarían,
no podremos hacer predicciones válidas, y si la intensidad de la covariación es moderada, las
predicciones no serán demasiado buenas. En consecuencia, hay que disponer de alguna medida de
la capacidad de la ecuación de Regresión para obtener predicciones buenas (en el sentido de que
sean lo menos erróneas posible).
Esta medida es el Coeficiente de Determinación, que es el cuadrado del coeficiente de correlación
de Pearson, y da la proporción de variación de la variable Y que es explicada por la variable X
(variable predictora o explicativa). Si la proporción es igual a 0, significa que la variable predictora
no tiene NULA capacidad predictiva de la variable a predecir (Y). Cuanto mayor sea la proporción,
mejor será la predicción. Si llegara a ser igual a 1 la variable predictora explicaría TODA la
variación de Y, y las predicciones NO tendrían error.

Desarrollo de Ejercicios (Estudio de caso).
Estudio de caos 1.
1. En un ensayo sobre trigo se quiere cuantificar la relación que hay entre la
disponibilidad de Nitrógeno en el suelo con la cantidad de Nitrógeno en la planta. Se
obtuvieron datos para doce parcelas en las que se registró el contenido de nutrientes
en el suelo (x) y los valores promedio de nitrógeno por planta (y)
N en el N en la
suelo planta
X Y
0,42 0,13
0,45 0,15
0,5 0,16
0,55 0,17
0,68 0,18
0,69 0,18
0,7 0,19
0,73 0,2
0,8 0,2
0,9 0,21
0,92 0,22
0,94 0,23
Tabla 1, datos ejercicio 1.
Para estos datos realice:

a) ¿Cuál es la variable dependiente (y) respuesta y cuál es la variable independiente
(x) o predictora en este caso?
R/
La variable dependiente (y) respuesta, son los valores promedio de nitrógeno por planta.
La variable independiente(X) o predictora, en este caso es el contenido de nutrientes en
el suelo
b) Realice el diagrama de dispersión asignando la variable respuesta e

independiente según corresponda. ¿Qué sugiere la gráfica con respecto al
modelo?
Diagrama de dispersión,N en la planta vs N en

el suelo
0.25
0.2
N en la planta
0.15
0.1
Diagrama de dispersión
0.05
0
0 0.2 0.4 0.6 0.8 1
N en el suelo
Diagrama 1 Ns vs Np
Podemos decir que la asociación entre el Nutrientes en el suelo y el Nitrógeno en la plata

sigue una recta de regresión lineal directamente proporcional, es decir, cada vez que el N en el
suelo aumenta, el N en la plata también y como los puntos se ajustan bien a la recta de regresión
se puede decir que la correlación es positiva fuerte.
c) Identifique el modelo
El modelo matemático que permite predecir el efecto del N en el suelo frente al N en la
planta está dado por la forma general de la ecuación de regresión lineal asi:
𝑦̂ = 𝑎 + 𝑏𝑋

Esta fórmula es igual que la ecuación cualquier línea a es la intersección con 𝑦̂ y b es la
pendiente el propósito es calcular los valores de a y b para desarrollar una ecuación lineal que se
ajuste mejor a los datos.
d) Estime los parámetros del modelo e interprételos

∑ 𝑥𝑦 − 𝑛𝑥̅ 𝑦̅
𝑏=
∑ 𝑥 2 − 𝑛𝑥̅ 2
Se obtiene la siguiente tabla para obtener los valores de b.
Datos X Y X.Y X2 Y2
1 0,42 0,13 0,0546 0,1764 0,0169
2 0,45 0,15 0,0675 0,2025 0,0225
3 0,5 0,16 0,08 0,25 0,0256
4 0,55 0,17 0,0935 0,3025 0,0289
5 0,68 0,18 0,1224 0,4624 0,0324
6 0,69 0,18 0,1242 0,4761 0,0324
7 0,7 0,19 0,133 0,49 0,0361
8 0,73 0,2 0,146 0,5329 0,04
9 0,8 0,2 0,16 0,64 0,04
10 0,9 0,21 0,189 0,81 0,0441
11 0,92 0,22 0,2024 0,8464 0,0484
12 0,94 0,23 0,2162 0,8836 0,0529
Suma 8,28 2,22 1,5888 6,0728 0,4202
Tabla 2. Parámetros del modelo.
Así que de esta tabla se sacan los datos:
∑ 𝑥𝑦 = 1,5888
∑ 𝑥 8,28
𝑥̅ = = = 0,69
𝑛 12
∑ 𝑦 2,22
𝑦̅ = = = 0,185
𝑛 12

𝑛𝑥̅ 𝑦̅ = 12 ∗ 0,69 ∗ 0,185 = 1,5318
∑ 𝑥 2 = 6,0728
𝑥̅ 2 = 0,692 = 0,4761
Para hallar la ecuación de regresión:
𝑦̂ = 𝑎 + 𝑏𝑋
Se halla b
∑ 𝑥𝑦 − 𝑛𝑥̅ 𝑦̅
𝑏=
∑ 𝑥 2 − 𝑛𝑥̅ 2
Y al reemplazar los datos obtenidos se tiene que
1,5888 − 12 ∗ 0,69 ∗ 0,185

𝑏=
6,0728 − 12 ∗ 0,4761
𝑏 = 0,1585
Y ahora se halla a
𝑎 = 𝑦̅ − 𝑏𝑥̅
𝑎 = 0,185 − 0,1585 ∗ 0,69 = 0.0756
Así que la Recta de regresión lineal que explicara el efecto de del N en el suelo frente al N
en la planta es:
𝑦̂ = 0.0756 + 15.85𝑋
Para la estimación del parámetro

𝑏 = 0,1585
R/ Es el efecto de la pendiente de la recta de regresión, es decir que tan dispersos están los
datos de la recta de regresión
Para la estimación del parámetro
𝑎 = 0.0756

R/ Es el efecto de la intersección con el eje y (Nutrientes en la planta) con respecto a la
recta de regresión lineal.
e) Redacte las hipótesis que interesa contrastar en el análisis de varianza

R/
𝐻0 : 𝑏 = 0
𝐻𝐴 : 𝑏 ≠ 0
f) Especifique matemáticamente el modelo y especifique cada término

Modelo lineal de Regresión
𝑦̂ = 𝑎 + 𝑏𝑋 + 𝑒
𝑦̂ = 0.0756 + 15.85𝑋
𝑎 = 0.0756
𝑎 = Es el efecto de la intersección con el eje y (Nutrientes en la planta) con respecto a la
𝑏 = 0,1585
𝑏 = Es el efecto de la intersección con el eje y (Nutrientes en la planta) con respecto a la
𝑒 = 𝑒𝑟𝑟𝑜𝑟
g) Verifique los supuestos para realizar en ANOVA y determine las hipótesis
 Las poblaciones (distribuciones de probabilidad de la variable dependiente
correspondiente a cada factor) son normales.
Grafico de Barras
1
Variables
0.5
X
0 Y
1 2 3 4 5 6 7 8 9 10 11 12
Observaciones

Grafico 2. Distribución de barras.
Gráfico de probabilidad normal

0.3
0.2
0,13
0.1
0
0 20 40 60 80 100 120
Muestra percentil
Grafico 3 de probabilidad.
R/ Vemos por el grafico de barras que las variables son Normales ya que no hay datos
atípicos para dudar si las variables no son Normales y hacer una prueba
 Las K muestras sobre las que se aplican los tratamientos son independientes.
R/ si son independientes ya que la probabilidad que tiene cada réplica del tratamiento es
diferente para todos.
 Las poblaciones tienen todas igual varianza (homocedasticidad).
R/Suponemos que las varianzas de la población son iguales para calcular el ANOVA.
𝐻0 : 𝑏 = 0
𝐻𝐴 : 𝑏 ≠ 0
En Excel:
Promedio
Grados de Suma de de los Valor crítico
libertad cuadrados cuadrados F de F
0,0090350 0,0090350 194,3
Regresión 1 4 4 2 7,05694E-08
0,0004649
Residuos 10 6 4,6496E-05
Total 11 0,0095
Por lo tanto, si

F calculado > F tabulado o también
Se rechaza Ho
Sacando los datos
F calculado=194,32
F tabulado=7,05694E-08
Así que
F calculado=194,32> F tabulado= 7,05694E-08
O también
Se rechaza Ho por lo tanto se concluye que hay relación lineal entre el efecto de del N en
el suelo frente al N en la planta
h) ¿Es significativo el modelo?

El modelo si es significativo ya que se probó que si hay efecto en el parámetro b esto
significa que si hay una relación lineal entre el efecto de los Nutrientes en el suelo frente al
Nitrógeno en la planta.
i) Realice la regresión con fórmulas en archivo Excel y con la herramienta

“regresión de análisis de datos” de Excel.
Estadísticas de la regresión
Coeficiente de
correlación
múltiple 0,97522137
Coeficiente de
determinación
R^2 0,95105673
R^2 ajustado 0,9461624
Error típico 0,00681881
Observacione
s 12
ANÁLISIS DE VARIANZA

Promedio
Grados de Suma de de los Valor
libertad cuadrados cuadrados F crítico de F
0,0090350 0,0090350 7,05694E-
Regresión 1 4 4 194,32 08
0,0004649 4,6496E-
Residuos 10 6 05
Total 11 0,0095
Coeficiente Error Estadístico Probabilida Inferior Superior

s típico t d 95% 95%
0,0080891 9,3493846
Intercepción 0,07562848 4 9 3E-06 0,05760475 0,0936522
0,0113709 13,939805 0,1838456
x 0,15850945 9 7 7E-08 0,1331733 1
j) Son significativos los coeficientes de regresión

Coeficiente Error Estadístico Probabilida Superior
s típico t d Inferior 95% 95%
Intercepció 0,0080891 9,3493846

n 0,07562848 4 9 3E-06 0,05760475 0,0936522
0,0113709 13,939805 0,1838456

x 0,15850945 9 7 7E-08 0,1331733 1
Los coeficientes de regresión son:
𝑦̂ = 𝑎 + 𝑏𝑋 + 𝑒
Sistemas de hipótesis
𝐻0 : 𝑎 = 0
𝐻𝐴 : 𝑎 ≠ 0

R/ Como pvalor<0.05 con una confianza del 95% es decir 3E-06 <0.05 se rechaza Ho por
lo tanto es significativo el coeficiente a
Sistema de hipótesis
𝐻0 : 𝑏 = 0
𝐻𝐴 : 𝑏 ≠ 0
R/ Como pvalor<0.05 con una confianza del 95% es decir, 7E-08<0.05 se rechaza Ho por
lo tanto, es significativo el coeficiente b
k) Como se cuantifica si el modelo explica una parte significativa de la variación

de la variable respuesta
Con el coeficiente de determinación R^2
Coeficiente de determinación
R^2 0,95105673
R/ el modelo explica un 95.1% de significancia la variación de la variable respuesta.
l) Redactar como si fuese para la sección de material y método y resultados de un

artículo científico
En este estudio de caso 1, se utilizó los comandos de Excel, específicamente el comando
análisis de datos (Regresión lineal) para utilizar la regresión lineal para explicar los valores
promedio de nitrógeno por planta con respecto a los nutrientes en el suelo, por lo tanto se encuentra
la regresión lineal, y después se prueba con un sistema de hipótesis a través de un ANOVA el
parámetro b que es la pendiente que da la recta de regresión lineal, en la cual nos resulta que si
tiene efecto este parámetro por lo cual si es significativo el modelo de regresión. Después se prueba
los dos parámetros de la recta de regresión lineal tanto b nuevamente y a, y estos parámetros son
significativos es decir que si hay un efecto por lo tanto la regresión lineal si explica los valores
promedio de nitrógeno por planta con respecto a los nutrientes en el suelo, y hallando el coeficiente
de determinación nos damos cuenta que el modelo explica un 95.1% de significancia la variación
de la variable respuesta.
Estudio de caso 2.

2. En una investigación de suelos, se deseaba conocer el efecto residual de fósforos en
suelos donde previamente se cultivó maíz, para lo cual se midió la concentración de
fósforo inorgánico (X1) y el orgánico (X2) en varios suelos calcáreos. Además, se midió
el contenido de fósforo del maíz sembrado en esos suelos y se estimó el fósforo
aprovechable por la planta (ppm) en suelos a una temperatura de 20 °C (Y).
Los datos:
Muestra X1 X2 Y
1 0.4 53 64
2 0.4 23 60
3 3.1 19 71
4 0.6 34 61
5 4.7 24 54
6 1.7 65 77
7 9.4 44 81
8 10.1 31 93
9 11.6 29 93
10 12.6 58 51
11 10.9 37 76
12 23.1 46 96
13 23.1 50 77
14 21.6 44 93
15 23.1 56 95
16 1.9 36 54
17 26.8 58 168
18 29.9 51 99
Fuente: Datos adaptados Martínez 1997
a. ¿Cuál es la variable dependiente (y) respuesta y cuál es (son) la (s) variable (s)
independiente (s)(x) o predictora (s) en este caso?

R/ El efecto residual de fósforos en suelos donde previamente se cultivó maíz es la variable
dependiente (y).
Las variables predictoras son:
X1: concentración de fósforo inorgánico
X2: el orgánico en varios suelos calcáreos
b. Realice el diagrama de dispersión asignando la variable respuesta e independiente

según corresponda. ¿Qué sugiere la gráfica con respecto al modelo?
Diagrama de dispersión
180
Y efecto residual de fósforos en
160
140
120
100 Diagrama de dispersión Y vs X1
suelos
80
60
Diagrama de dispersion para Y vs
40
X2
20
0
0 20 40 60 80
Xi
R/ se puede decir que el modelo de regresión lineal múltiple se ajusta a una recta de
regresión, porque los datos están cercanos con una tendencia a tener una correlación positiva.
c. Identifique el modelo
La forma general de la ecuación de regresión lineal múltiple es
𝑦̂ = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀𝑖
d. Estime los parámetros del modelo e interprételos
Se ha hecho en Excel.
Resumen
Estadísticas de la regresión

Coeficiente de
correlación múltiple 0,69448747
Coeficiente de
determinación R^2 0,48231284
R^2 ajustado 0,41328789
Error típico 20,6783987
Observaciones 18
Grados de Suma de Promedio de los Valor
0,0071697
Regresión 2 5975,66853 2987,83427 6,98751407 7
Residuos 15 6413,94258 427,596172

Total 17 12389,6111
Coeficiente Probabilida Inferior

s Error típico Estadístico t d 95%
21,485510
Intercepción 56,2510241 16,3107373 3,44871129 0,0035813 4
0,6031036
X1 1,78977412 0,55674341 3,21471987 0,00578677 2
X2 0,08664925 0,41494299 0,20882206 0,83739643 -0,7977808
𝑦̂ = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀𝑖
Reemplazando lo datos obtenidos con el comando análisis de datos de Excel tenemos:
𝑦̂ = 56.251 + 1.7898𝑋1 + 0.0867𝑋2 + 𝜀𝑖

e. Redacte las hipótesis que interesa contrastar en el análisis de varianza
𝐻0 : 𝛽1 = 𝛽2 = 0
𝐻𝐴 : 𝛽 ≠ 0
f. Especifique matemáticamente el modelo y especifique cada término

𝑦̂ = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀𝑖
𝜷𝟎 = 56.251 Es el efecto de la intersección con el eje y (contenido de fósforo del maíz

sembrado en esos suelos) con respecto a la recta de regresión lineal múltiple.
𝜷𝟏 = 1.7898 Es el efecto de la pendiente con el eje y (contenido de fósforo del maíz
sembrado en esos suelos) es decir que tan dispersos están los datos de la recta de regresión, con
respecto al eje X1 (concentración de fósforo inorgánico).
𝜷𝟐 = 0.0867 Es el efecto de la pendiente con el eje y (contenido de fósforo del maíz
sembrado en esos suelos) es decir que tan dispersos están los datos de la recta de regresión con
respecto al eje X2 (concentración de fósforo orgánico).
𝜺𝒊 = 𝑒𝑟𝑟𝑜𝑟
g. Verifique los supuestos para realizar en ANAVA y determine las hipótesis

 Las poblaciones (distribuciones de probabilidad de la variable dependiente
correspondiente a cada factor) son normales.
Gráfico de probabilidad normal

1.5
1
Y
0.5
0
0 0.2 0.4 0.6 0.8 1 1.2
Muestra percentil

R/ Vemos por el grafico de barras que las variables son Normales ya que no hay datos
atípicos para dudar si las variables no son Normales y hacer una prueba
 Las K muestras sobre las que se aplican los tratamientos son independientes.
R/ si son independientes ya que la probabilidad que tiene cada réplica del tratamiento es
diferente para todos.
 Las poblaciones tienen todas igual varianza (homoscedasticidad).
R/ Suponemos que las varianzas de la población son iguales para calcular el ANOVA.
𝐻0 : 𝛽1 = 𝛽2 = 0
𝐻𝐴 : 𝛽 ≠ 0
En Excel:
Grados de Suma de Promedio de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 2 5975,66853 2987,83427 6,98751407 0,00716977
Residuos 15 6413,94258 427,596172

Total 17 12389,6111
Por lo tanto, si
F calculado > F tabulado o también
Se rechaza Ho
Sacando los datos
F calculado = 6,98751407
F tabulado = 0,00716977
Así que
F calculado = 6,98751407> F tabulado = 0,00716977
Se rechaza Ho por lo tanto se concluye que hay relación lineal entre el efecto del (contenido
de fósforo del maíz sembrado en esos suelos) con respecto a la concentración de fósforo inorgánico,
y la concentración de fósforo orgánico.
h. ¿Es significativo el modelo?

El modelo si es significativo, ya que se probó que si hay efecto en el parámetro 𝛽1 𝑦 𝛽2
esto significa que si hay una relación lineal entre el (contenido de fósforo del maíz sembrado en
esos suelos) con respecto a la concentración de fósforo inorgánico, y la concentración de fósforo
orgánico.
i. Realice la regresión con fórmulas en archivo Excel y con la herramienta “regresión
de análisis de datos”
En Excel.
Grados de Suma de Promedio de los Valor
0,0071697
Regresión 2 5975,66853 2987,83427 6,98751407 7
Residuos 15 6413,94258 427,596172
Total 17 12389,6111
Coeficiente Probabilida Inferior

s Error típico Estadístico t d 95%
21,485510
Intercepción 56,2510241 16,3107373 3,44871129 0,0035813 4
0,6031036
X1 1,78977412 0,55674341 3,21471987 0,00578677 2
X2 0,08664925 0,41494299 0,20882206 0,83739643 -0,7977808
𝑦̂ = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀𝑖
Reemplazando lo datos obtenidos con el comando análisis de datos de Excel tenemos:
𝑦̂ = 56.251 + 1.7898𝑋1 + 0.0867𝑋2 + 𝜀𝑖
j. Son significativos los coeficientes de regresión

Error Inferior Superior
Coeficientes típico Estadístico t Probabilidad 95% 95%

Intercepción 56,2510241 16,3107373 3,448711294 0,0035813 21,4855104 91,0165378
X1 1,78977412 0,55674341 3,214719868 0,005786774 0,60310362 2,97644461
X2 0,08664925 0,41494299 0,208822058 0,837396429 -0,7977808 0,9710793
Los coeficientes de regresión son:

𝑦̂ = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀𝑖
Sistemas de hipótesis
𝐻0 : 𝛽0 = 0
𝐻𝐴 : 𝛽0 ≠ 0
R/ Como pvalor<0,05 es decir a un 95% de confianza 0,0035813<0.05 se rechaza Ho por
lo tanto es significativo el coeficiente 𝛽0
𝐻0 : 𝛽1 = 0
𝐻𝐴 : 𝛽1 ≠ 0
R/ Como pvalor<0.05 es decir a un 95% de confianza 0,005786774<0.05 se rechaza Ho
por lo tanto es significativo el coeficiente 𝛽1
𝐻0 : 𝛽2 = 0
𝐻𝐴 : 𝛽2 ≠ 0
R/ Como pvalor>0.05 es decir a un 95% de confianza 0,83739642>0.05 no se rechaza Ho
por lo tanto no es significativo el coeficiente 𝛽2
k. Como se cuantifica si el modelo explica una parte significativa de la variación de la

variable respuesta
Con el coeficiente de determinación R^2
Coeficiente de determinación R^2 0,48231284
R/ el modelo explica un 48.23% de significancia la variación de la variable respuesta con
respecto a las dos variables explicativas X1 y X2.
l. Redactar como si fuese para la sección de material y método y resultados de un

artículo científico

En el desarrollo del ejercicio se utilizaron herramientas como en el programa de Excel y
sus comandos de graficación, dispersión de datos, análisis de datos (Regresión lineal) para utilizar
la regresión lineal múltiple desarrollable en este caso. Esto a partir de la tabla proporcionada por el
ejercicio y que habla del efecto residual del fósforos en suelos donde previamente se cultivó maíz,
contando con una serie de 15 datos y/o muestras y 3 variables distintas representadas en las
concentraciones de fósforo inorgánico (X1), fosforo orgánico (X2) y el fósforo aprovechable por
la planta (ppm) en suelos a una temperatura de 20 °C (Y). En estas variables se tiene una carga alta
de fosforo orgánico, explicado quizás por el hecho que se encuentra ligadas a la materia orgánica
disponible en los suelos y la inorgánica es la forma en lo absorben los cultivos.
También se realizó una prueba con un sistema de hipótesis a través de un ANOVA, el
parámetro 𝛽1 𝑦 𝛽2 que es la pendiente que da la recta de regresión lineal, en la cual nos resulta que
si tiene efecto este parámetro; significando que si hay una relación lineal entre el contenido de
fósforo en el suelo donde se tenía maíz con respecto a la concentración de fósforo inorgánico, y la
concentración de fósforo orgánico. Por lo cual si es significativo el modelo de regresión lineal
múltiple basado en los resultados obtenidos por el análisis ANOVA.
Después se prueba los tres parámetros de la recta de regresión lineal múltiple 𝛽0 , 𝛽1 , 𝛽2 y
el único que no tiene efecto significativo es 𝛽2 ya que se probó con la t-student que no tiene efecto
significado, y hallando el coeficiente de determinación nos damos cuenta que el modelo explica
un 48.23% de significancia la variación de la variable respuesta con respecto a las dos variables
explicativas X1 y X2.
Estudio de caso 3.
3. A continuación, se presentan el análisis químico de una planta de leche que realizo a
23 fincas lecheras, donde se valoró los contenidos de proteína bruta (PB) y caseína
(CA) en leche:
No. PB CA No. PB CA
Finca Finca
1 2.74 1.87 13 2.95 2.04
2 3.19 2.26 14 3.08 2.16
3 2.96 2.07 15 3.14 2.16

4 2.91 2.09 16 3.22 2.22
5 3.23 2.28 17 3.14 2.22
6 3.04 2.04 18 3.15 2.24
7 3.08 2.18 19 3.2 2.22
8 3.23 2.3 20 2.95 2.07
9 3.11 2.17 21 3.19 2.25
10 3.11 2.15 22 3.12 2.23
11 3.1 2.16 23 2.99 2.16
12 3.25 2.33
De acuerdo con el ejercicio:

a. Hallar el coeficiente de correlación utilizando la herramienta de Excel
En Excel
Prueba t para medias de dos muestras emparejadas
PB CA
Media 3,09043478 2,16826087
Varianza 0,01581344 0,0107332
Observaciones 23 23
Coeficiente de correlación de Pearson 0,93441175
Diferencia hipotética de las medias 0
Grados de libertad 22
Estadístico t 94,2984223
P(T<=t) una cola 1,7418E-30
Valor crítico de t (una cola) 1,71714437
P(T<=t) dos colas 3,4836E-30

Valor crítico de t (dos colas) 2,07387307

𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑅 = 0.9344
b. Plantee las hipótesis
𝐻0 : 𝑅 = 0
𝐻𝐴 : 𝑅 ≠ 0
c. Aplique la t de Student con la fórmula en Excel y determine si la correlación es

significativa o no.
En Excel
Prueba t para medias de dos muestras emparejadas
PB CA
Media 3,09043478 2,16826087
Varianza 0,01581344 0,0107332
Observaciones 23 23
Coeficiente de correlación de Pearson 0,93441175
Diferencia hipotética de las medias 0
Grados de libertad 22
Estadístico t 94,2984223
P(T<=t) una cola 1,7418E-30
Valor crítico de t (una cola) 1,71714437
P(T<=t) dos colas 3,4836E-30

Valor crítico de t (dos colas) 2,07387307
R/ Como p valor<0.05 o cualquier nivel de significancia ya sea de un 95% de confianza u

otro 3,4836E-30<0.05 se rechaza Ho por lo tanto es significativo el coeficiente de correlación R.

d. Interprete el resultado
𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 = 𝑅 = 0,9344
R/ como el coeficiente de correlación es positivo y se acerca a 1 se puede decir que la

asociación entre las variables es fuerte positiva.
𝑅 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜
R/ Por lo tanto la correlación es significativa porque R=0.9344, es decir es cercano a 1 para

tener correlación perfecta positiva, y se probó en el numeral c que es diferente de cero la correlación
es decir si hay relación entre las variables, es decir R es significativo.

Conclusiones.
En teoría, hay varios supuestos importantes que deben cumplirse si se va a utilizar la regresión
lineal. Estos son:
1. Tanto las variables independientes (X) como las dependientes (Y) se miden en el intervalo o
nivel de relación.
2. La relación entre las variables independientes (X) y dependientes (Y) es lineal.
3. Los errores en la predicción del valor de Y se distribuyen de una manera que se aproxima a la
curva normal.
4. Los errores en la predicción del valor de Y son independientes entre sí.
5. La distribución de los errores en la predicción del valor de Y es constante independientemente

del valor de X.
Se logró aplicar los conceptos de análisis de regresión a los casos designados, aplicando análisis
de regresión lineal simple y múltiple, y pruebas de hipótesis para para determinar la significancia
estadística de las variables elegidas para el modelo. Teniendo en cuenta lo que resulta fundamental
para el diseño de experimentos, debido a lo útil que puede ser para establecer relaciones entre
variables utilizadas en estos.

Bibliografía.
- Montero, G. R. (2016). Modelos de regresión lineal múltiple. (U. d. Granada, Ed.)

Departamento de Economía Aplicada. Obtenido de
https://www.ugr.es/~montero/matematicas/regresion_lineal.pdf
- Rojo Abuín, J. M. (2007). Regresión lineal múltiple. II. Obtenido de

https://s3.amazonaws.com/academia.edu.documents/36787341/REGRESION_LINEAL_
MULTIPLE_3.PDF?response-content-
disposition=inline%3B%20filename%3DRegresion_lineal_multiple.pdf&X-Amz-
Algorithm=AWS4-HMAC-SHA256&X-Amz-
Credential=AKIAIWOWYYGZ2Y53UL3A%2F20191126%2F
- Universidad Estatal de California (sf). PPA 696 research methods - simple regression.
Recuperado de https://web.csulb.edu/~msaintg/ppa696/696regs.htm#REGRESSION
- Velducea Contreras, M. (s.f.). Clasificación de la investigación. Recuperado de

https://selinea.unidep.edu.mx/files/528to832_r649220160427120000289061.pdf


Tarea 4 - Analisis - Regresión y Correlación Lineal

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tarea 4 - Analisis - Regresión y Correlación Lineal

Cargado por

Copyright:

Formatos disponibles

Estudio de Casos.

Regresión y Correlación Lineal

Universidad nacional Abierta y a Distancia (UNAD)

Biometría y Diseño Experimental

José Alberto Montero

Eliana María Báez

Universidad nacional Abierta y a Distancia (UNAD)

Biometría y Diseño Experimental

Biometría y Diseño Experimental

1. ¿Cuál es el propósito del análisis de regresión y correlación?

Biometría y Diseño Experimental

4. ¿Qué es coeficiente de correlación y cuál es su interpretación?

Sin embargo si trazamos una línea recta en los diagramas.

Biometría y Diseño Experimental

Biometría y Diseño Experimental

Biometría y Diseño Experimental

Para estos datos realice:

Biometría y Diseño Experimental

b) Realice el diagrama de dispersión asignando la variable respuesta e

Diagrama de dispersión,N en la planta vs N en

Podemos decir que la asociación entre el Nutrientes en el suelo y el Nitrógeno en la plata

Biometría y Diseño Experimental

d) Estime los parámetros del modelo e interprételos

Así que de esta tabla se sacan los datos:

Biometría y Diseño Experimental

Para hallar la ecuación de regresión:

Y al reemplazar los datos obtenidos se tiene que

1,5888 − 12 ∗ 0,69 ∗ 0,185

𝑎 = 0,185 − 0,1585 ∗ 0,69 = 0.0756

Para la estimación del parámetro

Para la estimación del parámetro

Biometría y Diseño Experimental

e) Redacte las hipótesis que interesa contrastar en el análisis de varianza

f) Especifique matemáticamente el modelo y especifique cada término

Biometría y Diseño Experimental

Gráfico de probabilidad normal

Biometría y Diseño Experimental

h) ¿Es significativo el modelo?

i) Realice la regresión con fórmulas en archivo Excel y con la herramienta

Biometría y Diseño Experimental

Coeficiente Error Estadístico Probabilida Inferior Superior

j) Son significativos los coeficientes de regresión

Intercepció 0,0080891 9,3493846

0,0113709 13,939805 0,1838456

Los coeficientes de regresión son:

Biometría y Diseño Experimental

k) Como se cuantifica si el modelo explica una parte significativa de la variación

l) Redactar como si fuese para la sección de material y método y resultados de un

Biometría y Diseño Experimental

Biometría y Diseño Experimental

b. Realice el diagrama de dispersión asignando la variable respuesta e independiente

d. Estime los parámetros del modelo e interprételos

Biometría y Diseño Experimental

R^2 ajustado 0,41328789

Error típico 20,6783987

Residuos 15 6413,94258 427,596172

Coeficiente Probabilida Inferior

Reemplazando lo datos obtenidos con el comando análisis de datos de Excel tenemos:

𝑦̂ = 56.251 + 1.7898𝑋1 + 0.0867𝑋2 + 𝜀𝑖

Biometría y Diseño Experimental

f. Especifique matemáticamente el modelo y especifique cada término

𝜷𝟎 = 56.251 Es el efecto de la intersección con el eje y (contenido de fósforo del maíz

g. Verifique los supuestos para realizar en ANAVA y determine las hipótesis