Diseño Experimental Tema 1

1
CONTENIDO
INTRODUCCIÓN 4
1. REGRESIÓN LINEAL 5
1.1 Regresión Lineal Simple 6
1.2 Estimación de parámetros 7
1.3 Prueba de significancia 9
1.4 Medidas de adecuación al modelo 11
1.5 Estimación de intervalo de predicción 15
1.6 Regresión lineal múltiple 16
1.7 Estimación de parámetros 16
1.8 Prueba de significancia 19
1.9 Medidas de adecuación al modelo 20
1.10 Estimación de intervalo de predicción 23
CONCLUSIONES 25
REFERENCIAS 29
Ilustración 1. Gráfica de residuos vs la variable independiente (X). 11

Ilustración 2. Error estándar. 14
Ilustración 3. Intervalos de confianza. 14
Ilustración 4. Limite superior e inferior del intervalo de confianza. 14
Ilustración 5. Residuos de tres modelos. 15
Ilustración 6. Residuos de una regresión cualquiera. 16
Ecuación 1. Ecuación general correspondiente a un modelo de regresión lineal. 6

Ecuación 2. Desajuste de estimación de parámetros. 7
Ecuación 3. Derivadas de desajuste de estimación de parámetros. 8
Ecuación 4. Ecuaciones normales para regresión lineal. 8
2
Ecuación 5. Despeje estimación de Parámetros. 8
Ecuación 6. Despeje estimación de Parámetros. 8
Ecuación 7. Función lineal (Prueba de significancia). 9
Ecuación 8. Error cuadrado medio. 10
Ecuación 9. Prueba de Hipótesis. 10
Ecuación 10. Prueba F. 11
Ecuación 11. Falta de ajuste. 13
Ecuación 12. Modelos lineales múltiples. 16
Ecuación 13. Vector de estimación de los coeficientes. 18
Ecuación 14. Máxima verosimilitud (ML). 18
Ecuación 15. Hipótesis nula y la alternativa de la prueba. 19
Ecuación 16. Hipótesis prueba Wald. 20
Ecuación 17. Hipótesis Prueba F. 20
Ecuación 18. Coeficiente de determinación (R^2) 21
Ecuación 19. Coeficiente de determinación ajustado (R^a2). 21
Ecuación 20. Forma funcional. 21
Tabla 1. Modelo de regresión. 21
3
INTRODUCCIÓN
Dentro de la gran cantidad de variables que existen, dos son las
fundamentales. En primer lugar, la variable independiente es aquella que se
manipula y pone a prueba en una investigación para corroborar la veracidad o
falsedad de una hipótesis. Específicamente, una variable es una cualidad, aspecto
o característica que afecta a otra variable. Como el nombre lo indica, es una
variable cuyos valores no se modifican durante la investigación.
En segundo lugar, una variable dependiente es aquella cualidad o

característica que se ve afectada como consecuencia de la manipulación de la
variable independiente. Estas son, precisamente, las variables que se miden para
interpretar los datos de una investigación. Por lo tanto, un diseño experimental
siempre se aplica en una investigación cuantitativa. El objetivo de la aplicación de
un diseño experimental es extraer conclusiones sobre un problema de
investigación estudiado bajo un marco conceptual determinado.
Un modelo de regresión es un modelo que permite describir cómo influye

una variable 𝑋 sobre otra variable 𝑌.
John Nelder y Robert Wedderburn formularon modelos lineales

generalizados como una forma de unificar otros modelos estadísticos, como la
regresión lineal, la regresión logística y la regresión de Poisson.
De acuerdo con Paladino (2017), los modelos lineales son una de las
herramientas más importantes del análisis cuantitativo. Los utilizamos cuando
queremos predecir –o explicar– una variable dependiente a partir de una o más
variables independientes. El uso mismo de la terminología de variables
dependientes e independientes nos da una pista del abordaje: el ajuste de
modelos lineales busca encontrar una función –en el sentido matemático– que nos
permite expresar a una variable a partir de otras.
Por otra parte, Velásquez L. y Velásquez B. en 2018 declaran que

“Llamamos Modelos Lineales a aquellas situaciones que después de haber sido
analizadas Matemáticamente, se representan por medio de una función lineal, los
4
cuales son lineales en los parámetros desconocidos e incluyen un componente de
error. El componente de error es el que los convierte en Modelos Estadísticos.
Estos modelos son la base de la metodología que usualmente llamamos
Regresión Múltiple. Por esta razón el manejo de los Modelos Lineales es
indispensable para comprender y aplicar correctamente los Métodos Estadísticos.”
(p. 14)
La diferencia fundamental entre las regresiones lineal y no lineal, y la base

para los nombres de los análisis, son las formas funcionales aceptables del
modelo. Específicamente, la regresión lineal requiere parámetros lineales mientras
que la no lineal no. (Editor, 2019)
1. REGRESIÓN LINEAL
Algunos problemas básicos que suelen presentarse en la investigación
científica son los siguientes:
● Ordenación de la información. (Estadística descriptiva)

● Búsqueda de un modelo que explique el comportamiento de una variable.
(Probabilidad e inferencia)
● Análisis de la veracidad de una conjetura. (Inferencia)
● Estudio de la relación causal entre distintas variables. (Análisis de la
varianza, Diseño de Experimentos y Regresión)
La regresión lineal es una técnica de modelado estadístico que se emplea

para describir una variable de respuesta continua como una función de una o
varias variables predictoras. Puede ayudar a comprender y predecir el
comportamiento de sistemas complejos o a analizar datos experimentales,
financieros y biológicos.
Se denomina regresión lineal cuando la función es lineal, es decir, requiere

la determinación de dos parámetros: la pendiente y la ordenada en el origen de la
recta de regresión, 𝑦 = 𝑎𝑥 + 𝑏.
5
Las técnicas de regresión lineal permiten crear un modelo lineal. Este
modelo describe la relación entre una variable dependiente 𝑦 (también conocida
como la respuesta) como una función de una o varias variables independientes 𝑋𝑖
(denominadas predictores). La ecuación general correspondiente a un modelo de

regresión lineal es:
Ecuación 1. Ecuación general correspondiente a un modelo de regresión lineal.
1.1 Regresión Lineal Simple
Llamaremos MODELO MATEMÁTICO a la función matemática que

proponemos como forma de relación entre la variable dependiente (Y) y la o las
variables independientes.
El modelo de regresión lineal simple permite explicar la relación entre dos

variables.
Para Velásquez L. y Velásquez B. (2018) “El objetivo es explicar el

comportamiento de una variable “y”, que denominaremos variable explicada
(dependiente, endógena o respuesta), a partir de otra variable “x”, que llamaremos
variable explicativa (independiente o exógena)”
Además, señalan que “Mediante la Regresión Lineal Simple, se busca

hallar la línea recta que mejor explica la relación entre una variable independiente
y una variable dependiente. Se trata de cuantificar cuánto varía la variable
respuesta con cada cambio en la variable independiente. Cuando sólo se incluye
en el modelo una variable independiente se habla de Regresión Lineal Simple. En
los modelos de Regresión Lineal Simple la variable dependiente será siempre
cuantitativa.” (p. 23)
6
1.2 Estimación de parámetros
Los parámetros, β0 y β1, del modelo se estiman por los estadísticos

muestrales b0 y b1, los cuales se calculan usando el método de mínimos
cuadrados. En la regresión lineal simple, la gráfica de la ecuación
de regresión se llama línea de regresión estimada, ŷ es el valor estimado de 𝑦
para un valor específico de 𝑥.
Szretter (2017) considera que los coeficientes del modelo se estiman a

^
partir de la muestra aleatoria de 𝑛 observaciones (𝑋𝑖, 𝑌𝑖) con 1 ≤ 𝑖 ≤ 𝑛. Llamando β
^ ^ ^
0 y β1 a los estimadores de β0 y β1. Los valores β0 y β1 corresponderán a la recta de
^ ^
ordenada al origen β0 y pendiente β1 que “mejor ajuste” a los datos (𝑋𝑖, 𝑌𝑖),. . .,
(𝑋𝑛, 𝑌𝑛) observados. Para encontrarlos, se deberá dar una noción de bondad de
ajuste de una recta cualquiera con ordenada al origen 𝑎 y pendiente 𝑏 a nuestros

datos. Tomando las distancias verticales entre los puntos observados (𝑋𝑖, 𝑌𝑖) y los
puntos que están sobre la recta 𝑦 = 𝑎 + 𝑏𝑥, que están dados por los pares
(𝑋𝑖, 𝑎 + 𝑏𝑋𝑖). La distancia entre ambos es 𝑌𝑖 − (𝑎 + 𝑏𝑋𝑖).Tomando como función
que mide el desajuste de la recta a los datos a
Ecuación 2. Desajuste de estimación de parámetros.
𝑛
(
𝑔(𝑎, 𝑏) = ∑ (𝑌𝑖 − 𝑎 + 𝑏𝑋𝑖 ) ,
𝑖=1
)2
Es decir, la suma de los cuadrados de las distancias entre cada

observación y el valor que la recta candidata 𝑦 = 𝑎 + 𝑏𝑥 propone para ajustar
dicha observación. Esta expresión puede pensarse como una función 𝑔 que
depende de 𝑎 y 𝑏, y que toma a los valores (𝑋𝑖, 𝑌𝑖),. . ., 𝑋𝑛, 𝑌𝑛 como números ( )
fijos. Cuánto más cerca esté la recta de ordenada al origen 𝑎 y pendiente 𝑏, menor
será el valor de 𝑔 evaluado en el par (𝑎, 𝑏). Los estimadores de mínimos
cuadrados de β0 y β1 serán los valores de 𝑎 y 𝑏 que minimicen la función 𝑔. Para
7
encontrarlos, derivamos esta función con respecto a 𝑎 y 𝑏 y luego buscamos los
^ ^
valores β0 y β1 que anulan sus derivadas. Sus derivadas son
Ecuación 3. Derivadas de desajuste de estimación de parámetros.
^ ^
Las igualamos a cero para encontrar β0 y β1, sus puntos críticos. Obtenemos
Ecuación 4. Ecuaciones normales para regresión lineal.
Las dos ecuaciones anteriores se denominan las ecuaciones normales para

regresión lineal. Despejamos de ellas las estimaciones de los parámetros que
resultan ser
Ecuación 5. Despeje estimación de Parámetros.
La pendiente estimada también se puede escribir de la siguiente forma
Ecuación 6. Despeje estimación de Parámetros.
8
Es decir, el cociente entre la covarianza muestral y la varianza muestral de
las 𝑋'𝑠. Por supuesto, un estudio de las segundas derivadas mostrará que este
^ ^
procedimiento, hace que el par β0 y β1 no sea sólo un punto crítico, sino también un
^ ^
mínimo. Afortunadamente, en la práctica, los cálculos para hallar a β0 y β1 son
realizados por un paquete estadístico. (p.38-40)
1.3 Prueba de significancia

Las pruebas de significación estadística sirven para comparar variables
entre distintas muestras. Si la distribución de la muestra es normal se aplican los
llamados tests paramétricos. Si la distribución no puede asumirse normal se
aplican las pruebas no paramétricas.
Cardona, González, Rivera y Cárdenas (2013) consideran que la ecuación de

regresión lineal simple indica que el valor medio esperado de 𝑦 es una función
lineal de 𝑥:
Ecuación 7. Función lineal (Prueba de significancia).
𝐸(𝑦) = α + β𝑥 (18)
Si β = 0, entonces 𝐸(𝑦) = 𝑎. En este caso el valor medio de 𝑦 no depende

del valor de 𝑥 y se concluye que no existe relación lineal entre las variables. En
forma análoga, si el valor de β no es igual a cero, se concluye que las dos
variables se relacionan. Así, para probar si hay alguna relación importante de
regresión debemos efectuar una prueba de hipótesis para determinar si el valor de
β es cero. Existen dos pruebas que se usan con más frecuencia y para ellas se
necesita un estimado de la varianza del error en el modelo de regresión. (p.
2
● Estimado de σ
La varianza de ϵ también representa la varianza de los valores de y

respecto a la línea de regresión. Así, la suma de los residuales al cuadrado, SSE,
es una medida de la variabilidad de las observaciones reales respecto a la línea
de regresión. Cada suma de cuadrados tiene asociado un número que llamamos
9
grados de libertad. Se ha demostrado que SSE tiene 𝑛 – 2 grados de libertad,
porque se deben estimar dos parámetros α y β.
2 2
El error cuadrado medio (𝑠 ) es el estimado de σ . Se calcula mediante la
ecuación:
Ecuación 8. Error cuadrado medio.
2 𝑆𝑆𝐸
𝑠 = 𝑛−2
Prueba T
En el modelo de regresión lineal, si las variables tienen una relación lineal,

debe suceder que β≠0. El objetivo de la prueba t es ver si se puede concluir que
β≠0. Se usan los datos de la muestra para probar las siguientes hipótesis:
Ecuación 9. Prueba de Hipótesis.
𝐻0 : β = 0
𝐻𝑎 : β ≠ 0
Si se rechaza 𝐻0 la conclusión será que β≠0 y que hay una relación
estadísticamente significativa entre las dos variables. En este caso, las

propiedades de la distribución de b, el estimador de β por mínimos cuadrados, son
la base de esta prueba de hipótesis.
● Prueba F
También se puede usar una prueba basada en la distribución F de probabilidades,

para probar si la regresión es significativa. Como solo hay una variable
independiente, la prueba F debe indicar la misma conclusión que la prueba t, pero
cuando hay más de una variable independiente solo se puede usar la prueba F.
(Miller, 2000)
Pasos de la prueba:
𝐻0 : β = 0
𝐻𝑎 : β ≠ 0
10
Ecuación 10. Prueba F.
𝑆𝑆𝑅
𝐹 = 2
𝑠
Rechazar 𝐻0 si 𝐹 > 𝐹α
En donde 𝐹α se basa en una distribución 𝐹 con un grado de libertad en el

numerador y 𝑛 − 2 grados de libertad en el denominador.
1.4 Medidas de adecuación al modelo

La regresión lineal calcula una ecuación que minimiza la distancia entre la
línea ajustada y todos los puntos de los datos. Técnicamente, la regresión de
mínimos cuadrados ordinarios (MCO) minimiza la suma de los residuos al
cuadrado. (Editor, 2019)
En general, un modelo se ajusta bien a los datos si las diferencias entre los
valores observados y los valores de predicción del modelo son pequeñas y no
presentan sesgo.
Antes de examinar las medidas estadísticas de bondad de ajuste, se

recomienda revisar las gráficas de residuos. Las gráficas de residuos pueden
revelar patrones no deseados de residuos que indican sesgo en los resultados de
una manera más efectiva que los números. Cuando las gráficas de residuos pasan
la revisión, se puede confiar en los resultados numéricos y verificar la bondad de
ajuste estadística.
● Análisis residual. (HORTA GONZALEZ, 2009)
Análisis de residuos.
^
𝑒1 = 𝑌𝑖 − 𝑌𝑖
En regresión se supone que los errores ε𝑖
o Son independientes
o Tienen una media igual a 0
o Tienen la misma varianza σ𝑒2
11
o Tienen una distribución Normal
El análisis de residuos nos permite determinar si estas suposiciones se cumplan,

ya que de lo contrario los resultados obtenidos podrían no ser válidos.
Gráficas para el análisis de residuos.
Ilustración 1. Gráfica de residuos vs la variable independiente (X).
Gráfica de probabilidad Normal

● Eje vertical- residuos o valores observados de Y (ordenados de menor a
mayor).
● Eje horizontal- “normal scores”
Para calcular los “normal scores” se divide el área bajo la curva Normal en
n partes de áreas iguales. Las coordenadas de la mediana de cada
intervalo en el eje horizontal son los “Normal scores”. El “Normal score” del
intervalo i corresponde al valor de Z que tiene un área de (2i-1) /(2n) a su
izquierda.
● Coordenadas (X, Y) del punto i –
(“Normal score” del intervalo i,𝑒𝑖(𝑜 𝑌𝑖 )luego ordenados),
Si los residuos (o las Y) tienen una distribución normal entonces los puntos de la
gráfica deben caer aproximadamente en una linea recta con intercepto 0 (o 𝑌)y
dependiente 𝑀𝑆𝐸 (desviación estándar del error).
FALTA DE AJUSTE
12
La falta de ajuste o prueba de la “bondad de ajuste'' del modelo de
regresión se expresa mediante las siguientes tres hipótesis equivalentes:
(1) EL MODELO DE REGRESIÓN SIMPLE ES CORRECTO
EL MODELO DE REGRESIÓN SIMPLE NO ES CORRECTO
(2) NO HAY FALTA DE AJUSTE
HAY FALTA DE AJUSTE
(3)
¿Qué se requiere para la aplicación de esta prueba?
Los siguientes supuestos sobre la variable error se han cumplido:
La normalidad, independencia y homogeneidad de varianza
Se tiene duda de:
El ajuste a una línea recta
Existan:
Varias observaciones de la variable repuesta para al menos un valor de .
¿Cuál es la estadística de prueba para probar la hipótesis de falta de ajuste?
La estadística de prueba es
Ecuación 11. Falta de ajuste.
𝐶𝑀𝐸𝑟𝑟𝑜𝑟 𝑝𝑢𝑟𝑜 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 𝑝𝑢𝑟𝑜|𝑚−2

𝐹= 𝐶𝑀𝐹𝑎𝑙𝑡𝑎 𝑑𝑒 𝑎𝑗𝑢𝑠𝑡𝑒
= 𝑆𝐶𝐹𝑎𝑙𝑡𝑎 𝑑𝑒 𝑎𝑗𝑢𝑠𝑡𝑒|𝑛−𝑚
Donde:
13
media de las respuestas en el valor de
respuesta observada
valor estimado de la respuesta para el valor de
en el valor
Si el valor calculado de la estadística es:
1. Significante . Esto indica que el modelo aparentemente es

inadecuado. Entonces se debe intentar descubrir dónde y cómo ocurre esta.
2. No significante . Esto indica que aparentemente no existe

razón para dudar de la adecuación del modelo bajo esta prueba y tanto los
cuadrados medios de la falta de juste y el error puro pueden tomarse como
estimados de .
La falta de ajuste suele utilizarse en diseño experimental cuando los niveles

de factor de estudio son cuantitativos.
Nota:
Idealmente podemos encontrar que la prueba para falta de ajuste es no
significativa, y la hipótesis de significancia de la regresión es

rechazada. Desafortunadamente esto no garantiza que el modelo será
satisfactorio como ecuación de predicción.
14
1.5 Estimación de intervalo de predicción
La estimación por intervalos consiste en establecer el intervalo de valores
donde es más probable se encuentre el parámetro.
Guerrero (2017) señala que “en estadística, la probabilidad que asociamos

con una estimación de intervalo se conoce como el nivel de confianza. Esta
probabilidad nos indica que tanta confianza tenemos en que la estimación del
intervalo incluya al parámetro de la población. Una probabilidad más alta significa
más confianza. “
El intervalo de confianza es el alcance de la estimación que estamos

haciendo, pero a menudo hacemos el intervalo de confianza en términos de
errores estándar, para esto debemos calcular el error estándar de la media así:
Ilustración 2. Error estándar.
Con frecuencia expresaremos los intervalos de confianza de esta forma:
Ilustración 3. Intervalos de confianza.
En la que
Ilustración 4. Limite superior e inferior del intervalo de confianza.
15
1.6 Regresión lineal múltiple
Un modelo de regresión lineal múltiple es un modelo estadístico versátil
para evaluar las relaciones entre un destino continuo y los predictores. Los
predictores pueden ser campos continuos, categóricos o derivados, de modo que
las relaciones no lineales también estén soportadas.
Rodrigo (2016) estipula que “la regresión lineal múltiple permite generar un
modelo lineal en el que el valor de la variable dependiente o respuesta (𝑌) se
determina a partir de un conjunto de variables independientes llamadas
predictores (𝑋1, 𝑋2, 𝑋3…). Es una extensión de la regresión lineal simple, por lo
que es fundamental comprender esta última. Los modelos de regresión múltiple
pueden emplearse para predecir el valor de la variable dependiente o para evaluar
la influencia que tienen los predictores sobre ella (esto último se debe que analizar
con cautela para no malinterpretar causa-efecto).”
Los modelos lineales múltiples siguen la siguiente ecuación:
Ecuación 12. Modelos lineales múltiples.
● β0: es la ordenada en el origen, el valor de la variable

dependiente YY cuando todos los predictores son cero.
● β𝑖: es el efecto promedio que tiene el incremento en una unidad de la

variable predictora XiXi sobre la variable dependiente YY, manteniéndose
constantes el resto de variables. Se conocen como coeficientes parciales
de regresión.
● 𝑒𝑖: es el residuo o error, la diferencia entre el valor observado y el estimado
por el modelo.
1.7 Estimación de parámetros

De acuerdo a Montero (2016) para que los resultados de la regresión sean
“confiables” (confiable es una forma coloquial de referirse a: insesgados, es decir
16
que sus resultados sean parecidos a los reales; y óptimos, es decir que su
varianza sea mínima) es necesario que:
a) La relación entre las variables sea lineal. Ser lineal no significa que
forzosamente tenga que ser una línea recta sino también que pueda ser
lineal con alguna transformación.
b) Las perturbaciones (es decir los efectos provocados aleatoriamente o
por variables no incluidas en el modelo) deben ser: de media cero,
homocedásticas y no auto correlacionadas. Se suelen resumir estos
bajo la denominación de “esfericidad” de los residuos.
Por ejemplo, si los siguientes gráficos son los residuos de tres modelos el modelo
a no tiene residuos de media cero (aunque parece homocedásticos), los residuos
del modelo b son, además, heterocedásticos y ambos parecen muy
autocorrelacionados (un valor parece depender del valor anterior). Solo el modelo
“normal” tiene unos residuos centrados en 0 (E (u) = 0), no parecen abrirse o
cerrarse (son homocedásticos) y no tienen tendencia (no están
autocorrelacionados).
Ilustración 5. Residuos de tres modelos.
Aunque digan que una imagen vale más que mil palabras, en estadística esto no
siempre se cumple. El análisis gráfico casi nunca es tan explícito en la vida real.
En el caso de la base de Satisfacción si graficamos los residuos de una regresión
cualquiera... regress estasalud edad.
17
Ilustración 6. Residuos de una regresión cualquiera.
El resultado no es siempre igual a la teoría. No es evidente que no haya

tendencia, ni qué pueden implicar las distintas bandas. Aunque parece no se
puede afirmar rotundamente si hay o no esfericidad.
El software dice que tiene dos formas de estimación de una regresión lineal. Un
primero por mínimos cuadrados ordinarios (MCO), que consiste en resolver la
ecuación:
Ecuación 13. Vector de estimación de los coeficientes.

^ −1
𝑏 = (𝑋´𝑋) 𝑋´𝑦
^
Donde 𝑏 es el vector de estimación de los coeficientes, y es el vector de las
dependientes 𝑋 es la matriz de variables dependientes y 𝑋’ es la traspuesta de 𝑋
Y un segundo mediante máxima verosimilitud (ML). Que consiste en

maximizar la ecuación:
Ecuación 14. Máxima verosimilitud (ML).
ln 𝑙𝑛 𝐿 (𝑌) =−
𝑛
2 ( 2)
ln 𝑙𝑛 2π −
𝑛
2
2
ln 𝑙𝑛 (2σ −
(𝑌−𝑋β)´(𝑌−𝑋β)
2σ
2
Derivando respecto de β y de σ e igualando a 0. Ambos procedimientos

llevan a los mismos resultados (la práctica totalidad de las veces) pero hay
ocasiones en que, por repugnantes e inexpugnables problemas matemáticos, no
es posible resolver el sistema por MCO y debe resolverse por máxima
verosimilitud.
18
La ventaja de resolver por MCO es que obtenemos medidas de ajuste
2 ^2
confiables (𝑅 y 𝑅 ). Por ML no podemos obtener (en la mayoría de los casos) una
2
𝑅 pero podemos obtener otras medidas de ajuste como el Criterio de información
bayesiano (BIC) y el de Akaique (AIC) (en ambos casos cuanto más pequeños
mejor). (p.45)
1.8 Prueba de significancia

Prueba de significancia individual.
La primera prueba es la ya mencionada prueba de hipótesis para la
verificación de la significancia individual de los coeficientes cada uno por aparte.
Los parámetros β0, β1, β2, …. β𝑘 puede ser o no significativos dentro del
modelo. La prueba de la significancia individual para cada parámetro es una

prueba de hipótesis que se puede realizar mediante la prueba t-student o por el
método estadístico del valor -p.
La hipótesis nula y la alternativa de la prueba son:
Ecuación 15. Hipótesis nula y la alternativa de la prueba.
{𝐻0: β𝑗 = 0 𝐻1=β𝑗≠0
En el caso en que haya evidencia suficiente para rechazar la hipótesis nula,

el coeficiente β es significativo, en cuyo caso se interpreta. Este caso se presenta
cuando se tiene un |t| superior a un 𝑡 con α/2 grados de libertad, rechazando
entonces H0. De igual manera, si se contrasta el valor –p asociado al coeficiente y
se rencuentra que este es inferior al valor de significancia α, el resultado es el
mismo, rechazando la hipótesis nula. La significancia de los coeficientes depende
del nivel de confianza al que se haya rechazado la hipótesis: 90%, 95% o 99% (*,
**, ***). Es importante tener en cuenta el criterio estadístico según el cual se debe
rechazar la hipótesis al nivel de significancia más alto posible, y no rechazar al
nivel de significancia menor posible para poder concluir de una manera más
acertada.
Pruebas de significancia conjunta y global.

19
Es de suma importancia realizar también una prueba de significancia
conjunta de los β´s de nominada prueba Wald, que tiene por hipótesis las
siguientes:
Ecuación 16. Hipótesis prueba Wald.
𝐻0: β0 = β1 =... = β𝑘
𝐻1: 𝑁𝑜𝐻1
Con los mismos criterios estadísticos ya mencionados, se rechaza o no la

hipótesis nula concluyendo de esta manera sobre la significancia conjunta de
todos los coeficientes del modelo. Esta prueba de hipótesis permite verificar pues
que existe una significancia agregada entre todos los β ‘s. Otra prueba es la de
significancia global, la cual se denomina también prueba F que tiene como
hipótesis las siguientes:
Ecuación 17. Hipótesis Prueba F.
𝐻0: β1 =... = β𝑘
𝐻1: 𝑁𝑜𝐻0
Se utiliza en este caso el valor –p asociado al estadístico F arrojado por la

tabla ANOVA del modelo, permitiendo rechazar o no la hipótesis 𝐻𝑜 y concluir.
1.9 Medidas de adecuación al modelo

“La validación del modelo es parte importante del proceso de construcción
del modelo de regresión lineal múltiple. El que un modelo sea significativo no
necesariamente implica que sea bueno en términos de que explique la variación
de los datos. Por ello es importante tener medidas adicionales.” (Montero
Granados, 2016)
2
Coeficiente de determinación (𝑅 )
Ecuación 18. Coeficiente de determinación (R^2)
2 𝑆𝐶𝐸
𝑅 = 1∙ 𝑆𝐶𝑇
𝑎2
Coeficiente de determinación ajustado (𝑅 )
20
Ecuación 19. Coeficiente de determinación ajustado (R^a2).
𝑎2 𝐶𝑀𝐸
𝑅 = 1∙ 𝐶𝑀𝑇
NOTA:
Para hablar de un modelo que tiene un ajuste satisfactorio es necesario que

ambos coeficientes sean mayores a 0.70
´𝑦 = 0. 58 + 2. 7122𝑥1 + 2. 0497𝑥2
99. 97%
En el modelo de regresión lineal múltiple suponemos que más de una variable
tiene influencia o está correlacionada con el valor de una tercera variable. Por
ejemplo, en el peso de una persona pueden influir edad, género y estatura, en la
renta pueden influir trabajo, capital físico, conocimientos, etc. En el modelo de
regresión lineal múltiple esperamos que los sucesos tengan una forma funcional
como
Ecuación 20. Forma funcional.
𝑦𝑗 = 𝑏𝑜 + 𝑏1𝑥1𝑗 + 𝑏2𝑥2𝑗 + ⋯ + 𝑏𝑘𝑥𝑘𝑗 + 𝑢𝑗
donde y es la variable endógena, x las variables exógenas, u los residuos y b los

coeficientes estimados del efecto marginal entre cada x e y.
Tipos de variables
En regresión lineal múltiple sólo suele haber una variable endógena y

puede haber varias variables exógenas. Es decir, se individualiza el fenómeno
observado. También puede darse el caso de la existencia de varias variables
endógenas, pero su solución es difícil por lo que no es el caso general.
Dichas variables (tanto endógenas como exógenas) pueden adoptar dos

formas generales:
Continuas:
Las variables continuas son aquellas que llenan el espacio. Son números
reales y servirán incluso cuando su rango no sea desde − ∞ hasta + ∞. Suelen
21
ser variables cuantitativas (como el peso o la edad) pero también pueden ser
consideradas continuas variables cualitativas cuando pueden ordenarse y tienen
un número no bajo de elementos. Todas las variables de recuento siempre que su
rango sea alto podrían considerarse como continuas. Dentro de las variables
continuas tienen especial relevancia las conocidas como porcentajes.
Discretas:
Las variables discretas son aquellas que se mueven “a saltos”. Además de

las variables de recuento suelen ser factores cualitativos que indican alguna
característica del individuo. Si las características son sólo dos se suelen llamar
dicotómicas (género, bebedor…). Si son más de dos se suelen denominar
simplemente factor.
El tipo de variable es más importante si afecta a la variable endógena

(porque nos obligará a utilizar uno u otro modelo de regresión) pero no es tan
importante si 8 afecta a la variable exógena. No obstante, a las variables
exógenas factor y ordenadas también se les puede extraes más contenido
informativo si se las transforma en dummies. En el primer caso tenemos que para
cada tipo de variable hay un modelo de regresión completamente distinto:
Tabla 1. Modelo de regresión.
Tipo de Variable Modelo

Continua Lineal
Dicotómica Logit o probit
Recuenta Poison o Binomial
Factor ordenado Logit o probit Ordenada
Factor Logit o probit Multinomial
Porcentaje Regresión fraccional
Sin embargo, en el caso de las variables exógenas la distinta forma sólo
exigirá una distinta interpretación de forma que basta con saber cómo están
codificadas para interpretar los coeficientes estimados y demás parámetros.
22
1.10 Estimación de intervalo de predicción
La regresión lineal múltiple representa una extensión de la regresión lineal
simple en la que podemos incluir más de un predictor a la vez. En el caso de
contar con más de una variable predictora, podríamos pensar en que una opción
sería ajustar un modelo de regresión a cada uno por separado. Sin embargo, este
enfoque puede no llegar a resultar del todo satisfactorio, ya que cada ecuación de
regresión estaría ignorando las demás a la hora de estimar los coeficientes de
regresión. Además, si se diera que los predictores estuvieran correlacionados
entre sí ello podría llevar a estimaciones erróneas haciendo el ajuste por
separado. Por tanto, una ventaja de la regresión lineal múltiple es que evalúa el
efecto de cada predictor en presencia del resto, evitando el fenómeno de
confusión que puede aparecer cuando la asociación observada entre un predictor
y la variable respuesta se explica por otra variable (factor de confusión) de manera
total o parcial.
Por tanto, en una ecuación de regresión lineal múltiple, se asociará cada

predictor (X1, X2, ..., Xp) un coeficiente βp que cuantificará la asociación entre el
predictor en cuestión y la variable respuesta 𝑌 = β0 + β1 + β2𝑋2 + … + β𝑝𝑋𝑝 + ∈
Dónde: βj = efecto medio que tiene sobre Y el incremento en una unidad de

Xj, manteniendo fijos el resto de predictores.
β0 = ordenada en el origen, valor esperado de Y cuando todos los

predictores son cero.
ϵ = residuo o error del modelo, diferencia entre lo observado y lo estimado.
ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN
Al igual que en el caso de regresión lineal simple, los verdaderos

coeficientes β0, β1, ..., βp son desconocidos, por lo que han de ser también
estimados. Una vez estimados, podemos llevar a cabo las predicciones con la
fórmula.
^ ^ ^ ^ ^
𝑦 = β0 + β1𝑥1 + β2𝑥2 + … + β𝑝𝑥𝑝
23
Al igual también que en la regresión lineal simple, se sigue el método de
mínimos cuadrados para estimar estos coeficientes.
𝑛 𝑛
^ 2 2
(
𝑅𝑆𝑆 = ∑ 𝑦𝑖 − 𝑦𝑖
𝑖=1
) ( ^ ^ ^
= ∑ 𝑦𝑖 − β0 − β1𝑥𝑖1 − β2𝑥𝑖2 − … − β𝑝𝑥𝑖𝑝
𝑖=1
^
)
Precisión de los coeficientes de regresión.
La imprecisión en los coeficientes de regresión estimados se relaciona con

el error reducible (bias del modelo), a diferencia del error irreducible o aleatorio ϵ
en el modelo, que se relaciona con el grado de incertidumbre asociado a cuánto
difiere cada punto individual de la verdadera recta de regresión, o lo que es lo
mismo, la diferencia entre lo observado y estimado por el modelo.
Error estándar (SE).
El error estándar se utiliza para estimar cómo de precisos son nuestros

estimadores de los coeficientes, y como, de media, difieren del valor de los
verdaderos valores de los parámetros β0...βj.
Intervalo de confianza y de predicción
Mediante el cálculo del intervalo de confianza podemos obtener una

estimación de qué exactitud tienen nuestros estimadores de los coeficientes, o el
intervalo para el valor medio de Y dado un valor de X.
Por otra parte, el intervalo de predicción es una estimación del intervalo en

el cual se encontrarán futuras observaciones, con una determinada probabilidad,
dado lo que ya ha sido observado
^ *
𝑦(𝑥 )±𝑡 𝑎 𝑆𝐸 ^ *
1− 2 ,𝑛−2 𝑦(𝑥 )
El intervalo de predicción es siempre más amplio que el de confianza, ya

que incorporan a la vez el error de la estimación y el error irreducible ϵ.
CONCLUSIONES
Alumno: Jostin Manuel Chi Uc
24
Con respecto a este tema sobre la regresión lineal simple y la múltiple logre
entender o captar de mejor forma lo que vendría siendo lo básico y fundamental
en las regresiones ya que gracias a esta actividad realizada pudimos investigar
más a fondo sobre este tema y a la vez sobre los múltiples subtemas que este
término abarcando llenando así esas pequeñas dudas que teníamos antes de
empezar esta actividad. También se logró distinguir por decirlo así, ciertas
diferencias y similitudes entre ambos temas porque aunque tenían los mismos
subtemas, de antemano sabíamos que no tendrían igual contenido. Cabe
mencionar, que igual fue de mucha ayuda el haber realizado este trabajo por
equipo, recopilando así, diferentes puntos de vista y opiniones, corrigiéndonos en
todo momento.
Alumno: Jared Moises Nah Yam
Gracias a todos estas variables podemos comprender mejor la estadística,

ya sea en el área que se aplique, estas pueden ser utilizadas dependiendo de qué
se necesite o que se esté buscando, estas nos sirven para poder lograr encontrar
un resultado bastante práctico y certero en el cuál no presente “fallas” para que así
se pueda aplicar de manera perfecta, cada una de estas contienen distintas
fórmulas y maneras en las que se expresan o se aplican, ya que no siempre serán
las mismas ecuaciones ni fórmulas. De igual manera se tiene que usar las tablas
que pueden ser T de student o variables z para que así los resultados que
obtenemos sean confiables, cómo pudimos observar en las distintas variables que
fuimos mencionando en este trabajo, la mejor manera de poder saber ya sean
muestras poblacionales, el color de pelo, las notas de un examen, el sexo o la
estatura de una persona, etc. Estas se pueden lograr a medir gracias a estas.
De igual manera existe más información a la cuál ni fue profundizada pero es

bastante conveniente que se pueda saber más sobre ello para así llegar a
aplicarlos de manera correcta en lo que se necesite y para que no exista falla
alguna en el momento de aplicación.
Alumno: Eddie Emmanuel Gil Aguirre
25
La regresión lineal, analiza la relación de dos o más variables continuas, la
finalidad de una ecuación dela regresión es la de estimar los valores de una
variable con base en los valores conocidos de la otra. Su mismo modo, una
ecuación de regresión explica los valores de una variable en términos de otra. Es
decir, se puede saber una relación de causa y efecto entre dos o más variables
Cuando se habla de regresión lineal múltiple se refiere a una variable

dependiente ya sea dos o más variables independientes como se presentó
anteriormentemente, en uno de los problemas al analizar los datos nos dimos
cuenta que los puntos (datos del problema) están muy cerca de la tendencia lineal,
esto quiere decir, que si existe una relación entre estas variables, y más al analizar
el coeficiente de determinación nos comprueba que el análisis esta acertado.
Mientras que el modelo de Regresión Lineal Simple nos permite explicar “y”
en términos de “x”.Si tenemos: Y= B0 + B1X + U
Linealidad en las variables es cuando en beta esta elevada a un exponente

diferente a 1 y linealidad en los parámetros es cuando un cambio unitario en “x”
tiene el mismo efecto sobre "y" con independencia del valor inicial de “x”.
Alumno: Gregorio Lisandro Ciau Nahuat
Tras finalizar la investigación, se lograron identificar y analizar las

principales características de los subtemas de la regresión lineal simple e la
regresión lineal múltiple, como estas intervienen en el proceso del ámbito de la
ecología como se propone en nuestra ingeniería, pues como objetivo clave el
análisis de este tema, depende de anteriores aprendizajes de estadística, pues tal
análisis es el estimar o predecir la medida de promedio de las variables a estudiar.
Pues en la investigación, sus definiciones, sus métodos, formulas y cualquier
forma para el análisis de los datos a estudiar, pues al leer detenidamente cada
subtema de la investigación tienen una correlación pues entre los dos uno se
utiliza para la solución de una problemática con un resultado mientras que el otro
se requiere de varios resultados para su aplicación, el tema investigado ha
demostrado ser una de suma importancia durante el desarrollo académico y de
26
factor laboral a futuro, para finalizar se puede destacar que las diferentes técnicas
de la regresión se relacionan estadísticamente, por tanto esto se da entre dos o
más variables, por tal como se dicta en la investigación la regresión lineal se
asociación entre una variable dependiente y una variable independiente
manifestando los términos de la pendiente y la interacción de la línea que mejor
se ajusten a las variables de las problemáticas que se estudiara durante la
unidad.
Alumno: Juan Jose Canche Dzul
Tras la indagación del tema de regresión lineal simple y múltiple se

contextualizo en breve que existen diferencias para cada tipo de regresión, de
igual manera se analizó que el uso de la regresión es por algunas razones como;
predecir condiciones, tendencias o valores económicos futuros, ayuda a
determinar la relación entre dos o más variables o por la comprensibilidad de
cambios de una variable cuando cambia otra.
Por otra parte, se entendió que el análisis de regresión es un método

estadístico común utilizado en finanzas e inversiones como en otras ciencias o
áreas. Sin embargo, la regresión lineal es una de las técnicas más comunes para
el análisis de regresión, en cambio, la regresión múltiple es una clase de regresión
más amplia que incluye regresiones lineales y no lineales con múltiples variables
explicativas. Al indagar hemos comprendido lo básico para el uso e importancia de
las regresiones simples y múltiples
Alumna: Nelly Jaziel Garrido Chan

Gracias a realizar esta conclusión puedo concluir que:
● La regresión es una técnica estadística utilizada para simular la relación
existente entre dos o más variables. Por lo tanto se puede emplear para
construir un modelo que permita predecir el comportamiento de una
variable dada.
● El análisis de la regresión lineal se utiliza para predecir el valor de una
variable según el valor de otra. La variable que desea predecir se denomina
27
variable dependiente. La variable que está utilizando para predecir el valor
de la otra variable se denomina variable independiente.
● Este método es aplicable en muchas situaciones en las que se estudia la
relación entre dos o más variables o predecir un comportamiento, algunas
incluso sin relación con la tecnología. En caso de que no se pueda aplicar
un modelo de regresión a un estudio, se dice que no hay correlación entre
las variables estudiadas.
● Los modelos con un predictor se denominan regresión simple. Los modelos
con más de un predictor se conocen como regresión lineal múltiple.
● Las variables en un estudio de investigación constituyen todo aquello que
se mide, la información que se colecta o los datos que se recaban con la
finalidad de responder las preguntas de investigación, las cuales se
especifican en los objetivos.
●
28
REFERENCIAS
Cardona Madariaga, D. F., González Rodríguez, J. L., Rivera Lozano, M.,
Cárdenas Vallejo, E. (Noviembre de 2013). Inferencia estadística Módulo de
regresión lineal simple.
Editor, M. B. (18 de Abril de 2019). Minitab. Obtenido de Análisis de Regresión:

¿Cómo Puedo Interpretar el R-cuadrado y Evaluar la Bondad de Ajuste?:
https://blog.minitab.com/es/analisis-de-regresion-como-puedo-interpretar-el-
r-cuadrado-y-evaluar-la-bondad-de-ajuste
GUERRERO, A. S. (2017). Estadística Superior.
HORTA GONZALEZ, R. J. (Agosto de 2009). INSTITUTO TECNOLOGICO

SUPERIOR DE CALKINI.
Montero Granados, R. (2016). Modelos de regresión lineal múltiple. Universidad de

Granada., España .
Paladino, M. (4 de Abril de 2017). Modelo lineales con R.
Szretter Noste, M. E. (Agosto - Octubre de 2017). Apunte de Regresión Lineal.

Buenos Aires, Argentina.
VELÁSQUEZ LÓPEZ, O. Y. VELÁSQUEZ BONILLA, M. E. (DICIEMBRE de 2008).

“MODELOS LINEALES Y ALGUNAS APLICACIONES”. SAN MIGUEL, EL
SALVADOR, CENTROAMÉRICA.
29

Diseño Experimental Tema 1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Diseño Experimental Tema 1

Cargado por

Copyright:

Formatos disponibles

1

Ilustración 1. Gráfica de residuos vs la variable independiente (X). 11

Ecuación 1. Ecuación general correspondiente a un modelo de regresión lineal. 6

Tabla 1. Modelo de regresión. 21

En segundo lugar, una variable dependiente es aquella cualidad o

Un modelo de regresión es un modelo que permite describir cómo influye

John Nelder y Robert Wedderburn formularon modelos lineales

Por otra parte, Velásquez L. y Velásquez B. en 2018 declaran que

La diferencia fundamental entre las regresiones lineal y no lineal, y la base

● Ordenación de la información. (Estadística descriptiva)

La regresión lineal es una técnica de modelado estadístico que se emplea

Se denomina regresión lineal cuando la función es lineal, es decir, requiere

(denominadas predictores). La ecuación general correspondiente a un modelo de

Ecuación 1. Ecuación general correspondiente a un modelo de regresión lineal.

1.1 Regresión Lineal Simple

Llamaremos MODELO MATEMÁTICO a la función matemática que

El modelo de regresión lineal simple permite explicar la relación entre dos

Para Velásquez L. y Velásquez B. (2018) “El objetivo es explicar el

Además, señalan que “Mediante la Regresión Lineal Simple, se busca

Los parámetros, β0 y β1, del modelo se estiman por los estadísticos

Szretter (2017) considera que los coeficientes del modelo se estiman a

ajuste de una recta cualquiera con ordenada al origen 𝑎 y pendiente 𝑏 a nuestros

que mide el desajuste de la recta a los datos a

Ecuación 2. Desajuste de estimación de parámetros.

Es decir, la suma de los cuadrados de las distancias entre cada

Ecuación 3. Derivadas de desajuste de estimación de parámetros.

Ecuación 4. Ecuaciones normales para regresión lineal.

Las dos ecuaciones anteriores se denominan las ecuaciones normales para

Ecuación 5. Despeje estimación de Parámetros.

La pendiente estimada también se puede escribir de la siguiente forma

Ecuación 6. Despeje estimación de Parámetros.

1.3 Prueba de significancia

Cardona, González, Rivera y Cárdenas (2013) consideran que la ecuación de

Ecuación 7. Función lineal (Prueba de significancia).

Si β = 0, entonces 𝐸(𝑦) = 𝑎. En este caso el valor medio de 𝑦 no depende

La varianza de ϵ también representa la varianza de los valores de y

Ecuación 8. Error cuadrado medio.

En el modelo de regresión lineal, si las variables tienen una relación lineal,

Ecuación 9. Prueba de Hipótesis.

Si se rechaza 𝐻0 la conclusión será que β≠0 y que hay una relación

estadísticamente significativa entre las dos variables. En este caso, las

También se puede usar una prueba basada en la distribución F de probabilidades,

En donde 𝐹α se basa en una distribución 𝐹 con un grado de libertad en el

1.4 Medidas de adecuación al modelo

Antes de examinar las medidas estadísticas de bondad de ajuste, se

● Análisis residual. (HORTA GONZALEZ, 2009)

En regresión se supone que los errores ε𝑖

El análisis de residuos nos permite determinar si estas suposiciones se cumplan,

Gráficas para el análisis de residuos.

Ilustración 1. Gráfica de residuos vs la variable independiente (X).

Gráfica de probabilidad Normal

dependiente 𝑀𝑆𝐸 (desviación estándar del error).

(1) EL MODELO DE REGRESIÓN SIMPLE ES CORRECTO

EL MODELO DE REGRESIÓN SIMPLE NO ES CORRECTO

(2) NO HAY FALTA DE AJUSTE

HAY FALTA DE AJUSTE

¿Qué se requiere para la aplicación de esta prueba?

Los siguientes supuestos sobre la variable error se han cumplido:

La normalidad, independencia y homogeneidad de varianza

Se tiene duda de:

El ajuste a una línea recta

Varias observaciones de la variable repuesta para al menos un valor de .

¿Cuál es la estadística de prueba para probar la hipótesis de falta de ajuste?

Ecuación 11. Falta de ajuste.