Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2. ¿Por qué se requiere la regresión lineal múltiple? ¿En qué casos se presenta?
La regresión lineal múltiple se utiliza para la predicción de respuestas a partir de variables
explicativas.
Se aplica en:
• Identificación de variables explicativas
Nos ayuda a crear un modelo donde se selecciones las variables que puedan influir en la respuesta,
descartando aquellas que no aportan información
• Detección de interacciones
Entre variables independientes que afectan a la variable de respuesta. Un ejemplo de interacción
clásico es el de estudiar la respuesta de un paciente al alcohol y a un barbitúrico y observar que
cuando se ingieren ambos el efecto es mucho mayor del esperado como suma de los dos
• Identificación de variables confusoras.
Es un problema difícil el de su detección, pero de interés en investigación no experimental ya que
el investigador frecuentemente no tiene control sobre variables independientes.
3. Que tipos de correlación existe, cite un ejemplo para cada uno de los casos.
• La correlación se encuentra entre (-1, 1)
• La correlación puede ser positiva: Significa que individuos que tienen puntuaciones ALTAS
en una variable tienden a obtener puntuaciones ALTAS en la otra variable y viceversa.
• La correlación puede ser negativa: Significa que individuos que tienen puntuaciones ALTAS
en una variable tienden a obtener puntuaciones BAJAS en la otra variable y viceversa.
• La correlación puede ser nula: Significa que no existe dependencia entre las variables.
En los siguientes Diagramas de dispersión se puede observar que existe una relación lineal entre la
variable X y la variable Y.
Interpretación:
Si r < 0 Hay correlación negativa: las dos variables se correlacionan en sentido inverso. A valores
altos de una de ellas le suelen corresponder valores bajos de la otra y viceversa. Cuánto más
próximo a -1 esté el coeficiente de correlación más patente será esta covariación extrema. Si r= -1
hablaremos de correlación negativa perfecta lo que supone una determinación absoluta entre las
dos variables (en sentido inverso): Existe una relación funcional perfecta entre ambas (una relación
lineal de pendiente negativa).
Si r > 0 Hay correlación positiva: las dos variables se correlacionan en sentido directo. A valores
altos de una le corresponden valores altos de la otra e igualmente con los valores bajos. Cuánto
más próximo a +1 esté el coeficiente de correlación más patente será esta covariación. Si r = 1
0.2
N en la planta
0.15
0.1
Diagrama de dispersión
0.05
0
0 0.2 0.4 0.6 0.8 1
N en el suelo
Diagrama 1 Ns vs Np
c) Identifique el modelo
El modelo matemático que permite predecir el efecto del N en el suelo frente al N en la
planta está dado por la forma general de la ecuación de regresión lineal asi:
𝑦̂ = 𝑎 + 𝑏𝑋
∑ 𝑥𝑦 = 1,5888
∑ 𝑥 8,28
𝑥̅ = = = 0,69
𝑛 12
∑ 𝑦 2,22
𝑦̅ = = = 0,185
𝑛 12
∑ 𝑥 2 = 6,0728
𝑥̅ 2 = 0,692 = 0,4761
𝑦̂ = 𝑎 + 𝑏𝑋
Se halla b
∑ 𝑥𝑦 − 𝑛𝑥̅ 𝑦̅
𝑏=
∑ 𝑥 2 − 𝑛𝑥̅ 2
𝑏 = 0,1585
Y ahora se halla a
𝑎 = 𝑦̅ − 𝑏𝑥̅
Así que la Recta de regresión lineal que explicara el efecto de del N en el suelo frente al N
en la planta es:
𝑦̂ = 0.0756 + 15.85𝑋
R/ Es el efecto de la pendiente de la recta de regresión, es decir que tan dispersos están los
datos de la recta de regresión
𝑎 = 0.0756
Grafico de Barras
1
Variables
0.5
X
0 Y
1 2 3 4 5 6 7 8 9 10 11 12
Observaciones
0.1
0
0 20 40 60 80 100 120
Muestra percentil
Grafico 3 de probabilidad.
R/ Vemos por el grafico de barras que las variables son Normales ya que no hay datos
atípicos para dudar si las variables no son Normales y hacer una prueba
Las K muestras sobre las que se aplican los tratamientos son independientes.
R/ si son independientes ya que la probabilidad que tiene cada réplica del tratamiento es
diferente para todos.
Las poblaciones tienen todas igual varianza (homocedasticidad).
R/Suponemos que las varianzas de la población son iguales para calcular el ANOVA.
𝐻0 : 𝑏 = 0
𝐻𝐴 : 𝑏 ≠ 0
En Excel:
Promedio
Grados de Suma de de los Valor crítico
libertad cuadrados cuadrados F de F
0,0090350 0,0090350 194,3
Regresión 1 4 4 2 7,05694E-08
0,0004649
Residuos 10 6 4,6496E-05
Total 11 0,0095
Por lo tanto, si
Estadísticas de la regresión
Coeficiente de
correlación
múltiple 0,97522137
Coeficiente de
determinación
R^2 0,95105673
R^2 ajustado 0,9461624
Error típico 0,00681881
Observacione
s 12
ANÁLISIS DE VARIANZA
𝑦̂ = 𝑎 + 𝑏𝑋 + 𝑒
Sistemas de hipótesis
𝐻0 : 𝑎 = 0
𝐻𝐴 : 𝑎 ≠ 0
Sistema de hipótesis
𝐻0 : 𝑏 = 0
𝐻𝐴 : 𝑏 ≠ 0
R/ Como pvalor<0.05 con una confianza del 95% es decir, 7E-08<0.05 se rechaza Ho por
lo tanto, es significativo el coeficiente b
Estudio de caso 2.
Muestra X1 X2 Y
1 0.4 53 64
2 0.4 23 60
3 3.1 19 71
4 0.6 34 61
5 4.7 24 54
6 1.7 65 77
7 9.4 44 81
8 10.1 31 93
9 11.6 29 93
10 12.6 58 51
11 10.9 37 76
12 23.1 46 96
13 23.1 50 77
14 21.6 44 93
15 23.1 56 95
16 1.9 36 54
17 26.8 58 168
18 29.9 51 99
Fuente: Datos adaptados Martínez 1997
a. ¿Cuál es la variable dependiente (y) respuesta y cuál es (son) la (s) variable (s)
independiente (s)(x) o predictora (s) en este caso?
Diagrama de dispersión
180
Y efecto residual de fósforos en
160
140
120
100 Diagrama de dispersión Y vs X1
suelos
80
60
Diagrama de dispersion para Y vs
40
X2
20
0
0 20 40 60 80
Xi
R/ se puede decir que el modelo de regresión lineal múltiple se ajusta a una recta de
regresión, porque los datos están cercanos con una tendencia a tener una correlación positiva.
c. Identifique el modelo
La forma general de la ecuación de regresión lineal múltiple es
𝑦̂ = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀𝑖
Se ha hecho en Excel.
Resumen
Estadísticas de la regresión
Observaciones 18
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor
libertad cuadrados cuadrados F crítico de F
0,0071697
Regresión 2 5975,66853 2987,83427 6,98751407 7
𝑦̂ = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀𝑖
1
Y
0.5
0
0 0.2 0.4 0.6 0.8 1 1.2
Muestra percentil
Por lo tanto, si
F calculado > F tabulado o también
Se rechaza Ho
Sacando los datos
F calculado = 6,98751407
F tabulado = 0,00716977
Así que
F calculado = 6,98751407> F tabulado = 0,00716977
Se rechaza Ho por lo tanto se concluye que hay relación lineal entre el efecto del (contenido
de fósforo del maíz sembrado en esos suelos) con respecto a la concentración de fósforo inorgánico,
y la concentración de fósforo orgánico.
𝑦̂ = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀𝑖
Reemplazando lo datos obtenidos con el comando análisis de datos de Excel tenemos:
𝑦̂ = 56.251 + 1.7898𝑋1 + 0.0867𝑋2 + 𝜀𝑖
Estudio de caso 3.
3. A continuación, se presentan el análisis químico de una planta de leche que realizo a
23 fincas lecheras, donde se valoró los contenidos de proteína bruta (PB) y caseína
(CA) en leche:
No. PB CA No. PB CA
Finca Finca
1 2.74 1.87 13 2.95 2.04
2 3.19 2.26 14 3.08 2.16
3 2.96 2.07 15 3.14 2.16
PB CA
Media 3,09043478 2,16826087
Varianza 0,01581344 0,0107332
Observaciones 23 23
Grados de libertad 22
Estadístico t 94,2984223
Sistema de hipótesis
𝐻0 : 𝑅 = 0
𝐻𝐴 : 𝑅 ≠ 0
En Excel
PB CA
Media 3,09043478 2,16826087
Varianza 0,01581344 0,0107332
Observaciones 23 23
Grados de libertad 22
Estadístico t 94,2984223
𝑅 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜
En teoría, hay varios supuestos importantes que deben cumplirse si se va a utilizar la regresión
lineal. Estos son:
1. Tanto las variables independientes (X) como las dependientes (Y) se miden en el intervalo o
nivel de relación.
3. Los errores en la predicción del valor de Y se distribuyen de una manera que se aproxima a la
curva normal.
Se logró aplicar los conceptos de análisis de regresión a los casos designados, aplicando análisis
de regresión lineal simple y múltiple, y pruebas de hipótesis para para determinar la significancia
estadística de las variables elegidas para el modelo. Teniendo en cuenta lo que resulta fundamental
para el diseño de experimentos, debido a lo útil que puede ser para establecer relaciones entre
variables utilizadas en estos.
- Universidad Estatal de California (sf). PPA 696 research methods - simple regression.
Recuperado de https://web.csulb.edu/~msaintg/ppa696/696regs.htm#REGRESSION